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BUNDESREPUBLIK DEUTSCHLAND 




RECD 1 1 FEB 2004 



WIPO 



PCT 



Prioritatsbescheinigung uber die Einreichung 
einer Patentanmeldung 



Aktenzeichen: 

Anmeldetag: 

Anmelder/lnhaber: 

Bezeichnung: 
Prioritat: 




PCT/DE 03/00942 



21, Marz 2003 



PACT XPP Technologies AG, Munchen/DE; 
Martin Vorbach, Munchen/DE. 

Verfahren und Vorrichtung zur Datenverarbeitung 



21.03.2002 DE 102 12 622.4; 21.03.2002 DE 102 12 621.6; 
02.05.2002 DE 102 19 681.8; 02.05.2002 EP 02 009 868.7; 
12.06.2002 DE 102 26 186.5; 20.06.2002 DE 102 27 650.1; 
20.06.2002 EP PCT/EP 02/06865; 07.08.2002 DE 102 36 271.8; 
07.08.2002 DE 102 36 272.6; 07.08.2002 DE 102 36 269.6; 
16.08.2002 EP PCT/EP 02/10065; 21.08.2002 DE 102 38 174.7; 
21.08.2002 DE 102 38 173.9; 21.08.2002 DE 102 38 172.0; 
27.08.2002 DE 102 40 022.9; 27.08.2002 DE 102 40 000.8; 
03.09.2002 DE PCT/DE 02/03278; 06.09.2002 DE 102 41 812.8; 
18.09.2002 EP PCT/EP 02/10479; 18.09.2002 EP PCT/EP 02/10464; 
19.09.2002 EP PCT/EP 02/10572; 10.10.2002 EP 02 022 692.4; 

06.12.2002 EP 02 027 277.9; 07.01.2003 DE 103 00 380.0; 

20.01.2003 EP PCT/EP 03/00624; 20.01.2003 DE PCT/DE 03/00152; 
18.02.2003 DE PCT/DE 03/00489 



noch nicht festgelegt 



Die angehefteten Stucke sind eine richtige und genaue Wiedergabe der ur- 
sprunglichen Unterlagen dieser Patentanmeldung. 



Munchen, den 19. November 2003 
Deutsches Patent- und Markenamt 
CERTIFIED COPY OF Der President 

PRIORITY DOCUMENT lm Auftr " 




BEST AVAILABLE CQpf^ 



PCX 



ANTRAG 



Der Unterzeichhete beantragt, dafl die vorliegendei 
Internationale Anmeldung nach dem Vertrag aber die 
internationale Zusammenarbeit adf dem Gebiet des 
Patentwesens behandeit wird. 



■ Vom An * 



Intemationales Aktenzeiche n 

2 1. Man 2003 



RQ/DE 



^ 2 1 03. 03 ) 



Nrinfe'dee Ahmeideamts 



Deuts;ches Patent- und Markenamt 
(German Patent and Trade Mark Office) 



ion 



Aktenzeichen des Anmelders. oder Anwalts^Z/s gewilnscht) 
(max, IZZeichen) RACT29/RCTD 



Feld Nr. I BEZEICHNUNG DER ERFINDUNG 

Verfahren und Vorrichtung zur Datenverarbeitung 



Feld Nr. II ANMELDER 



| | Diese Person ist gleichzeitig Erfinder . 



.Name und Anschrift: (Familienndme, Vorname; bei juristischen Personen vollstandige amtliche 
Bezeichnung Bet der Anschrift sind die. Postleitzahl und der Name des Staats anzugeben. Der it 
aiesem Feld in der Anschrift angegebene Staat ist der Staat des Sitzes oder Wohnsiizes de& 
Anmelders, sofern nachstehend kein Staat des Sitzes oder Wohnsiizes angegeben isL) ' 

PACT XPP Technologies AG 
MuthmannsfraSe 1 
D-80939 Munchen DE - 



Telefonnr.: 



Telefaxnr.: 



Fernschreibnr.: 



Registrierungsnr. des Anmelders beim Amt: 



StaatsangehOrigkeit (Staat): 

DE 



Diese Person ist Anmelder- j j ' alle Bestim 



Sitz oder Wohnsitz (Staat): 

DE 



ftir folgende Staaten: 



Feld Nr. HI WEITERE ANM]ELDER UND/ODER (WEITERE) ERFINDER 



Name und Anschnfc (FamtUenname Vorname; bei juristischen Personen vollstandige amtliche 
Bezeichnung Bet der Anschrift sind die Postleitzahl und der Name des Staats anzugeben. Der ir 
diesem Feld in der Anschrift angegebene Staat ist der Staat des Sitzes oder Wohnsiizes dei 
Anmelders, sofern nachstehend kein Staat des Sitzes oder Wohnsiizes angegeben ist.) 

VQRBACH Martin 
GotthardstraRe 1 1 7 'a ' 
D-80689 Miinchen . . 

3>E ' \ 



Diese Person ist ■ 
| | nurAnmelder 

|Xl Anmelder und Erfinder 

□ nur Erfinder (Wird dieses Kastchen 
angekreitzt, so sind die nachstehenden 
Angaben nicht notig.) 



Registrierungsnr. des Anmelders beim Amt 



Staatsangehorigkeit (Staat): 

DE 



Sitz oder Wohnsitz (Staat): 

DE 



^tSSS^tS^^ □ ±L*5£E I I f>*: Bestimmun^staaten mit Ausnahme f*T nur die Vereinigten H"! die im Zusatzfeld 
rur roigenae Maaten. | 1 mungsstaaten I 1 der Vereinigten Staate n von Amerika L*J Staaten von Amerika L_J angegebenen Staaten 



□ 

Weitere Anmelder und/oder (weitere) Erfinder sind auf einem Fortsetzungsblatt angegeben. 



Feld Nr. IV ANWALT ODER GEMEINSAMER VERTRETER; ODER ZVSTELLANSCHRIFT 



Die folgende Person wird hiermit bestelll/ist bestellt worden, urn rur den ( die) Anmelder H71 . , r— i 
vo rdenzus tandigen internationalen Behorden in folgender Eigen^chaft zu hand^ als^ IK! Anwalt □ e^einsamer 
— : — : : » * 1 Vertreter 



Name und Anschrift: (Familienname, Vorname; beijuristischeri Personen vollstandige amtliche 
Bezeichnung. Bei der Anschrift sind die Postleitzahl und der Name des 
Staats anzugeben.) 

PIETRUK Claus Peter 
Patentanwalt 
Heinrich-Lilienfein-Weg 5 
D-76229 Karlsruhe DE 



Telefonnr.; 

++49 721 462034 



Telelaxnr.: 

++49 721 469308 



Fernschreibnr.: 

Registrierungsnr. des Anwalts beim.Amt: 



Fonhblatt PCT/RO/101 (Blatt 1) (Marz 2001; Nachdruck Juii 2002) 



Siehe Anmerkungen zu diesem Antragsformular 



BlattNr. 



FeldWr.V BESTIMMUNG VOW STAATEN Bi^ea^rechenden KSsxhenMre^ ein-Ka^ ^ angekremy^ 



EA 



El EP 



OA 



Die folgenden Bestimmungen nach Regel 4.9 Absatz a werden hiennit vorgenommen: 
Regionales Patent 

M AP ARJPp-Patent: GH Ghana GM Gambia, KE Kenia, LS Lesotho, MW Malawi, MZ Mosambik, SD Sudan 

SLSiemLeone.SZSwasiland.TZVeremigteRepublikTansania.UG Uganda, ZM Sambia,ZW Simbabweundjederweitere 
Staa^derVertta^ 

_. ( %e*^chtvwa\bittemtfd&gepunktetenLintem ; '*rjanren 

Eurasisch^ Patent: AM Atmenien AZ As«baidschan, BY Bela^ KGK^siste^KZ Ka^^ 
Moldau RU Russische Federation, TJ Tadschikistan, TM Turkmenistan und jeder weitere Staat, der V^tragsS des 
Eui^ischenPatentubereinkommensunddesPCTist . aes 

Eu^ropaische) Patent: AT Osterreich, BE Belgien, BG Bulgarienl cH &LI Schweiz und Liechtenstein, CY Zypern 
CZ Tschechische Repubbk, DE Deutschland, DKDSnemark, EE Estland, ES Spanien, FI Finnland, FR FranSich' 
GBVereinigtesKonigreich, GR Gnechenland, IE Irland, IT Italien, LU Luxemburg, MC Monaco, NL Niederlande 
FT Portuga . SE sc^, SK Slowakei, TR Tttrkei und jeder weitere Staat, de? Vertragsstaat deTE^opShi 
Patentubereinkommens und des PCT ist euiupjuscnen 

?A?lK* en ^ BmkiD ^T' BJ^in. GFZ^afiikanische Republik, CGKongo, CIC6te d'lvoire, CM Kamerun, 
™ h * Jumea, GQ Aquatonalgumea, GW Guinea-Bissau, ML Mali, MR Mauretanien, NE Niger, SN Senegal 
TO Tschad, TG Togo und jeder weitere Staat, der Vertragsstaat der OAPI und desPCT ist (falls eineandereSchutzrecham 
oderemsonstiges Verfahrengewunschtwird, bitte aufder gepunkteten Linie angeben) . 

Nationales Vztent (falls eineandereScfmtrechtsan oderemsonstiges Verfahren gewunschtwird. bitte aufder gepunkteten Linie cmgeben^ 

IS AE Vereimgte Arabische Emirate 123 GM Gambia und ARIPO-Gbm 0 NZ Neuseeland 

g AG Antigua und Barbuda ^ HR Kroatien ! 0 OMOman " 

^^ banien EJOTJUnganT 0 PH PMlippinen . 

n AM Armemen J E ED) Indonesieri B PL Polen 

©AT Os teI reich.;..und Gbn]/::-. E EL Israel'...' 0 „ Portagal 

M AU Australien H IN Indien . — " * 

13 AZ Aserbaidschan E3 IS 

13 BA Bosnien-Heizegovina 0^ jp 

§ BB Barbados B KE Kenia . up.d . A.RI P.O-Gbjn . . . . . (3 SD Sudan 

SS^ U,8 ? en gKGKugisistan 13 SE Schweden 

S BR Brasuien ' ISKP Demokratische Volksrepublik . M SG Singapur 

gBVBelaras Korea 0 SI Slowenien 

W BZ Belize . El KR Republik Korea E| SK Slowakei und] ARIPO-fGbm 

EICAKanada .;■ § KZ Kasachstan . 

IS] CH & LI Schweiz und Liechtenstein E3 LC Saint Lucia 

S CN China 0LKSriLanka 

M CO Kolumbien H LR Liberia 

g CR Costa Rica ^ L S Lesotho und. AR I PO-Gbm . Tuikd 

gCU Kuba ; H LT Litanen . 

12 CZ Tschechische Republik und. Gbm. ©LU Luxemburg 

m DE Deutschland . . H"* .Gbm g, LV Lettland TZ Vereinigte Republik Jansarua Und| 

EDKDan«nark....ynd.Gbin H MAMarokko i B UA Ukraine T. T. . . . .™" gU ' 

(CT ° omMica S MD Republik Moldau . . BUG Uganda . W .AR WOrSbOl. ! 

m °r 2 1Se " en • • ra B US Vereinigte Staaten von Amerika. . 

U3EC Ecuador.... , gl MGMadagaskar. . 

H-EE Estland.. und. Gbm ^ l . . |^ MKDieehemaligejugoslawische " S UZ UsbeWstan 7. V.V.V.* 

S ES S P an,en Republik Mazedonien ^ VN Vietnam 

g FI FinnIand • - U - nd - -9M BmH Mongolei . Q YU Jugoslawien ........... . . . . ! ] 

^.GB Vereinigtes Konigreich , S MWMalawi .URd .ARIPQ-Gbm. . . . 13 ZA Sfldafrika 

W GD Grenada , 0MXMexiko E ZM.Sambia und ARIPO-Gbm 

GE Georgien ... ^. §MZ Mosambik . .U.qd . A.R.Ip.Q-Gbn! . |^ zWSimbabwe . und . ARIP0 T Gbm 

0 GH Ghana .. Und ARIPO T Gbm ... NO Norwegen 

spwie jeweiLs aLLe anderen zusatzLichen mogLichen Schutzrechte in diesen Landern 



Island 
Japan . 



RO Rumanien 

RU Russische Federation . 



HSL Siena Leone. 
13 TJ Tadschikistan . 
13 TM Turkmenistan . 
13 TN ■ Tunesien 



TT Trinidad und Tobago 



ran/? ^ " estllnmu ?g y° n Staaten, diadem PCT nach der VeiSffentlichung dieses Formhla 
13 XV. Vincent; + .Grenadineg sz Swasiland u» ARIp\)-Gb«£^_\ 



dieBestimmung von Staaten, dj^flem n_ i nach der Veroffentiichune dieses ForaibJatts beigetreten sind. 



^•.$C..Se.ycJie.Lle/i 



NI 



ReJeM 9 a££ b^Sffif ^ tamm ™8 e % Z usa ^ zu den oben genannten Bestimmungen nimmt .der Anmelder nach 
B«tim m ,,n^- auc ^. alle ^, deren nach dem p CT zulassigen Bestimmungen vor mit Ausnahme der im Zusatzfeld genannten 
vSSt S Jn^ Se ^ W ^ 

kSl»? Bestaogung stehen und jede zusatzhche Beshmmung, die vor Ablauf von 15 Monaten ab dem Prioritatsdatum nicht 
^^^^^^^^^^^^^r/^l^^^^^^i^^von^j^S Mo^ate^^eit^^^^n^^^^^^ gi^ (Die Jfestatigung (einschliefilich der Gcbuhrett) 



BlattNr. 



.3. 



Feld Nr. VI PRIORITATSANSPRUCH 



Die Prioritat der folgeriden fruheren Anmeldung(en) wird hiermit in Anspruch genommen; 



. Anmeldedatum 
der frUheren Anmeldung 
(Tag/Monat/Jahr) 


■ Aktenzeichen 
der frttheren Anmeldung 


' 1st die friihere Anmeldung eine: 


nationale Anmeldung: 
Staat oder Mitglied der WTO 


regionale Anmeldung:* 
regionales Amt 


intemationale Anmeldung: 
Anmeldeamt 


Zeile.(l) 
21 . Marz 2002 


102 12 622.4 


DE 




• 


Zeile (2) 

91 Mar7 90fl9 


•1H9 19 fi91 R 


DE 




1 


Zeile (3) 

02. Mai 2002 


102 19 681.8 


DE 




1 


Zeile (4) 

02^ Mai 2002 
Cot* 05 1 (tt) 


02 009 868.7 


EP 






Zeile (5) 

12. Juni2002 


102 26 186.5 


DE 


« 





I""] ■ Weitere PrioritatsarisprQche sind im Zusatzfeld angegeben. 



Das Anmeldeamt wird ersucht, eine beglaubigte Abschrift der oben bezeichneten friiheren Anmeldung(en) zu erstellen und den 
internationalen Buro zu Ubermittelnfw falls die friihere Anmeldung(en) bet dem Amt eingereicht worden ist (sind), dasflir die Zwecke 
dieser internationalen Anmeldung Anmeldeamt ist) 

□ E ^ <*> K "la (2) g| Zeile (3) Q Zeile (4) QQ Zeile (5) H ZiSffld ^ 

* Falls es sich bei der friiheren Anmeldung urn eine ARIPO-Anmeldung handelt, geben Sie mindesiens einen Staat an, der Mitglie&Mder 
Pariser Verbandsubereinkunft zum Schutz des gewerblichen Eigentums oder Mitglied der Welthandelsorganisation ist undfilr den oder da r 
die Jriihere Anmeldung eingereicht wurde:. • 



Feld Nr. VII INTERNATIONALE RECHERCHENBEHORDE 



Wahl der internationalen Recherchenbch6rde.(ISA)fi&/Zs zwei oder mehralszwei intemationale Recherchenbehdrdenjur die Ausfilhrung 
der internationalen Recherche zustandig sind, geben Sie die van Ihnen gewcihlte Behbrde an; der Zweibuchstaben-Code kann benutzt werden) : 

ISA/..: 

Antrag auf Nutzung der Ergebnisse einer friiheren Recherche; Bczugnahme auf diese friihere Recherchejfc/fe eine Jriihere 
Recherche bei der internationalen Recherchenbehorde beantragt oder von ihr durchgefilhrt worden ist): 
Datum (Tag/Monat/Jahr) , Aktenzeichen Staat (oder regionales Amt) 



Feld Nr. VIII ERKLARUNG EN 



Die Felder Nr. VIE (i) bis (v) enthalten die foigenden ^rklarungenfto-ei/zen Sie unten die entsprechenden 
Kastchen an und geben Sie in der rechten Spaltef&r jede Erklarung deren Anzahl an) 



Anzahl der 
Erldarungen 



□ Feld Nr. VIH (i) 

□ Feld Nr. VIU (ii) . 

Eg Feld Nr. VIII (iii) 

□ Feld Nr. VIII (iv) 

□ Feld Nr. VIII (v) 



Erklarung hinsichtlich der Identitiit des Erfinders 

Erklarung hinsichtlich. der Berechtigung des Anmelders, zum Zeitpunkt des 
internationalen Anmeldedatums, ein Patent zu beantragen und zu erhalten 

Erklarung hinsichtlich der Berechtigung des Anmelders, zum Zeitpunkt des 

internationalen Anmeldedatums, die Prioritat einer frUheren Anmeldung 

zu beanspnichen : 

Erfindererklarung (nur im Hinblick auf die Bestimmung der Vereinigten 
Staaten von Amerika) • 

Erklarung hinsichtlich unschadlicher Offenbarungen oder Ausnahmen 
von der Neuheitsschadlichkeit 



A 



Formblatt PCT/RO/101 (Blatt 3) (Juli 2002) 



Siehe Anmerkungen zu diesem Antragsformular 



BlattNr. 



Zusatzfeld 



Wird dieses Zusatzfeld nicht benutzt, so sollte dieses Blatt dem Antrag nicht beigefUgt werden. 



1. Wenn der Platz in einem Feld nicht Jur alle An gab en 
ausreicht: In diesem Fall schreiben Sie "Fdrtsetzung von 
Feld Nr. ... " [Nummer des Feldes angebenj und machen die 
Angaben entsprechendder in dem Feld, in dem der Platz nicht 
ausreicht, vorgeschriebenen Art und Weise, insbesondere: 1 

(i) Wenn mehr als zi^ei Anmelder und/oder Erfinder vorftanden 
sind und kein "Fortsetzungsblatt" zur VerfiXgung steht: In 
diesem Fall schreiben Sie "Fortsetzung von Feld Nr. Ill" und 
machen Jur jede weitere • Person die in ,Feld Nr. III. 
vorgeschriebenen Angaben. Der in diesem Feld in derAnschrift 
angegebene Staat ist der Staat des Sitzes oder Wohnsitzes des 

t Anmelders, ' sofern nachstehend kein Staat des Sitzes oder 
Wohnsitzes angegeben ist. 

i 

(ii) Wenn in Feld Nr. II oder III die Angabe "die im Zusatzfeld 
angegebenen Staaten 1f angekreuzt ist: In diesem Fall schreiben 

' Sie "Fortsetzung von Feld Nr. 11", "Fortsetzung von 
Feld Nr. Ill" bzw. "Fortsetzung von Feld Nr. II. und Nr. Ill" 
und geben den Namen des Anmelders oder die Namen der 
Anmelder an und neben jedem Namen den Staat oder die 
Staaten (und/oder ggf. ARIPO-, eurasisches, ■ europdisches 
oder O API-Patent), flir die die bezeichnete Person Anmelder 
ist. 

(in) Wenn der in Feld Nr. II oder III genannte Erfinder oder 
Erfinder/ Anmelder nicht JUr alle Bestimmungsstaaten oder 
Jur die Vereinigten Staaten von Amerikaals Erfinder benannt 
ist: In diesem Fall schreiben Sie xt FortsetzungvonFeldNr.il", 
"Fortsetzung von Feld Nr. Ill" bzw. "Fortsetzung von 
Feld Nr. II und Nr. Ill" und geben den Namen des Erfinders 
oder die Namen der Erfinder an und neben Jedem Namen den 
Staat oder die Staaten (und/oder ggf. ARIPO-, eurasisches, 
europdisches oder OAPI-Patent),Jur die die bezeichnete Person 
Erfinder ist. 

(iv) Wenn zusatzlich zu dem Anwalt oder den Anwalten, die in 
Feld Nr. IV angegeben sind,weitere Anwdlte bestellt sind: In 
diesem Fall schreiben Sie "Fortsetzung von Feld Nr. IV" und 
machen Jur jeden weiteren Anwalt die entsprechenden,. in 
Feld Nr. IV vorgeschriebenen Angaben. 

. (v) Wenn in Feld Nr. V bei einem Staat (oder bei OAPI) die 
Angabe "Zusatzpatent" oder "?usdtzzertifikat," oder wenn 
in Feld Nr. V bei den Vereinigten Staaten von Amerika die 
Angabe u Fortsetzung }9 oder "Teilfortsetzting" hinzugejugt 
wird: In diesem Fall schreiben Sie . "Fortsetzung von 
Feld Nr. V" und geben den Namen des betreffenden Staats 
(oder OAPI) an und nach dem Namen jedes solchen Staats 
(oder OAPI) das Aktenzeichen des Hauptschutzrechts oder 
der Hauptschutzrechtsanmeldung und das Datum der Erteilung 
des Hauptschutzrechts oder der Einreichung der 
Hauptschutzrechtsanmeldung. 

(vi) Wenn in Feld Nr. VI die Prioritdt yon mehr als JUnJ fruiter en 
Anmeldungen beansprucht wird In diesem Fall schreiben 
Sie "Fortsetzung von Feld Nr. VI" und machen Jur jede 
weitere JHXhere Anmeldung die entsprechenden, in Feld Nr. VI 
vorgeschriebenen Angaben. 

2. Wenn, im Hinblick auj die Erklarung bzgL vorsorglicher 
Bestimmungen in Feld Nr. V, der Anmelder Staaten von 
dieser Erkldrungausnehmen mochte: In diesem Fall schreiben 
Sie "Bestimmung(en), die von der Erklarung bzgl vorsorglicher 
Bestimmungen ausgenommen istfsind) " und geben den Namen 
oder den Zweibuchstaben-Code jedes so ausgeschlossenen 
Staates an. 



Fortsetzung von Feld VI: 



6) 20. 

7) 20. 

8) 07. 

9) 07. 

10) 07. 

11) 16. 

12) 21; 

13) 21. 

14) 21. 

15) 27. 

16) 27. 

17) 03: 

18) 06. 

19) 18. 

20) 18. 

21) 19. 

22) 10. 

23) 06. 

24) 07. 

25) 20. 



Juni2002 102 27 650.1 DE 
Juni200? PCT/EP 02/06865 EP hinter- 

iegt mit Wirkung fur TT 
Aug. 2002 102 36 271.8 ,'. DE 
Aug. 2002 102 36 272.6 DE 
Aug. 2002 102 36 269.6 DE 
Aug. 2002 PCT/EP 02/10065 EP hinter- 

legt mit Wirkung fOr TT 
Aug. 2002 102 38 174.7 DE 
Aug. 2002 102 38 173.9 DE 
Aug. 2002 102 38 172.0 DE 
Aug. 2002 102 40 022.9 DE 
Aug. 2002 102 40 000.8 DE 
Sept. 2002 PCT/DE 02/03278 DE hinter- 
legt mit Wirkung fur TT 

Sept. 2002 102 41 812.8 DE 

Sept. 2002 PCT/EP 02/10479 EP hinter- 
legt mit Wirkung fQr TT 
Sept. 2002 -PCT/EP 02/10464 EP hinter- 
legt mit Wirkung fQr TT 
Sept. 2002 PCT/EP 02/1 0572 EP hinter- 
legt mit Wirkung fGr TJ> 
02 022 692,4 EP tX 
02 027 277.9 EP */ 
103 00 380.0 DE 
PCT/EP 03/00624 EP hinter- 

legt mit Wirkung fur TT 
PCT/DE 03/00152 DE hinter- 

legt mit Wirkung fQr TT 
PCT/DE 03/00489 DE h inter- 
legt mit Wirkung fQr TT 



Okt. 2002 
Dez. 2002 
Jan. 2003, 
Jan. 2003 



26) 20. Jan. 2003 

27) 18. Feb. 2003 



Formblatt PCT/RO/101 (Zusatzblatt) (Miirz 2001; Nachdruck JulL2002) 



Siehe Anmerkungen zu diesem Antragsformular 



BlattNr. 



PCT/DE 0 3 / 00 9 42 



Feld Nr. VIH (Ui) ERKLARUNG: BERECHTIGUNG, DIE PRIORITAT EINER FRUHEREN ANMELD UNG ZU 

BEANSPRUCHEN 

Die Erkldrung mufi dem in Abschnitt 213 vorgeschriebenen Wortlaut entsprechen; siehe Anmerkungen zu den Feldern VIH VIU ($s (v) 
(allgemein) und insbesondere die Anmerkungen zum Feld Nr. VIII (tit). fVird dieses Feld nicht benutzt, so sollte dieses Blattedn Antrag nicht 
beige fitgt werden. __ , . ._. ' . 



Erklarung hinsichtlich der Berechtigung des Anmelders, zum Zeitpunkt des iritemationalen Anmeldedatums, die Prioritat der unteu 
aufgerilhrten fruh'eren Anmeldung zu beanspruchen, in Fallen, in denen der Anmelder nicht auch der Anmelder derfruheren Anmeldun 
ist. oder in Fallen, in denen sich der Name des Anmelders seit der Einreichung der triiheren Anmeldung geandert hat (Regeln 4. Efiffer iii 
und 51 to. 1 Absatz aZiffer Hi): ; : ,' . 

Die PACT XPP Technologies AG ist kraft des nachfolgend Aufgefuhrten berechtigt,- die 
Pripritaten derfruheren aufgefuhrten Anmeldungen zu beanspruchen': 

Der Name des Anmelders hat sich gemafS Ariderung des Gesellschaftsvertrages vom 
08. Juli 2002 yon PACT Informationstechriologie GmbH gemafJ formwechselnder 
Umwandlung in PACT XPP Technologies AG geandert; Datum der letzten Eintragurig im 
Handelsregister 27. August 2002 - gemaft beiliegehdem Handelsregisterauszug vom 
.12. September 2002. . ■ 



□ Diese Erklarung wird a'uf dem folgenden Blatt fortgefUhrt, ^Fortsetzungsblatt ffir Feld Nr. VIII (iii)". 



Formblatt PCT/RO/101 (Erklarungsblatt (iii)) (Marz 2001;' Nachdruclc Juli 2002) ; Siehe Anmerkungen zu diesem Antragsformular 



Blatt Nr. 



Feld Nr. IX KONTROLLISTE; EINREICHUNGSSP RACHE 



Diese intematiohale- Anmeldungenthalt: ' 

(a) die Folgende Anzahl an 
Blattern Papier 

Antrag'(inklusive 
Erklarungsblatter) 

Beschreibung (ohne 
Sequenzprotoko llteil) 

* Anspruche 

Zusammenfassung 

Zeichnungen 

Teilanzahl 



J Sequenzprotokollteil der 
" Beschreibung (Anzahl der 
Blatter, aoweit auf Papier 
eingereicht wird,.unabhdngig 
dayon, ob zusdtzlich , 
audi in computerlesbarer 
Form eingereicht wird) 

. Gesamtanzahl 



(b) Sequenzprptokollteil der Beschreibung in 
computerlesbarer Form eingereicht 

(i) r-i ausschliefilich in dieser Form (nach 
u Abscjbtnitt 801(a)(i)) 

(ii) n zusatzlich zur Einreichung auf Papier 

, (nach Abschnitt 801 (a)(ii)) 
Art und Anzahl der Datentrager (Diskette, 
CD-ROM, CD-R oder sonstige), auf denen 
dbr Sequenzprotokollteil ehthalten ist - 
(zusdtzlich eingereichte Kopien unter Punkt 9(H) 
in der rechten Spalte angeben) 



Dieser internationalen Anmeldung liegen die folgenden 
Unterlagen bei (krettzen Sie die entsprechenden Kdktchen 
an und geben Sie in der rechten Spalte jeweils die Anzahl 
der beiliegenden Exemplare an) ■ , , 
1. □ Blatt fur die Gebuhrenberechnung 

• 2. □ Original einer gesonderten Vollmacht 

3. □ Original einer. nllgemeinen Vollmacht 

4. □ Kopie der allgemeirien Vollmacht; Aktenzeichen (falls 

vorhanden): , 

5. Begrundung fiir das Fehlen einer Unterschrift 



Anzahl 



6, □ 

7. Q 

•9.Q 



Prioritatsbeieg(e), in Feld Nr. VI durch folgende 
Zeilennummer(n) gekennzeichnet: ^ 



Obersetzung der intemationaieri Anmeldung 'in die 
folgende Sprache: 



io. h 



Gesonderte Angaben zu hinterlegten Mikroorganismen 
oder anderera biologischen Material : 

Sequenzprotokoll in computerlesbarer Form (geben Sie 
zusatzlich die Art und Anzahl der beiliegenden Datentrager 
. an (Diskette; CD-ROM, CD-R oder sonstige) ) . 

(i) □ Kopie ausschliefilich fur die Zwecke der. 

internationalen Recherche nach Regel 1 3er (und 
nidht als Teil der internationalen Anmeldung) , : 

(ii) □ (nur falls Feld (b)(1) oder (b)(ii) in der linken Spalte 

angekreuzt wwn/^zusatzliche Kopien einschhefilich, 
soweitzutreffend, einer Kopie fiir die Zwecke der 
.internationalen Recherche nach Regel [3ter . : 

(iii) □ zusammen mit entsprechender ErklSrung, dafi die • 

'Kopie(n) mit dem in der HnkenSpalte aufgefuhrten 
Sequenzprptokollteil identisch ist (sind)_ 

Sonstige (einzeln auffiihren). 
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Abbildung der Zeichnungen, die 

mit der Zusammenfassung 
veroffentHcht werden soU(Nr.): . 



Sprache, in der. die 
Internationale Anmeldung DE 
eingereicht wird: 



Feld Nr. X UNTERSCHRIFT DES ANMELDERS, DES ANWALTS ODER DES GEMEINSAMEN YERTRETERS 

Der Namejeder unterzeichnenden Person ist neben der Unterschrift zu wiederholen, imd es ist anzugeben, sofern sich dies niafihdeutig aus dem Antrag 
ergibt, in welcher Eigenschaji die Person unterzeichnet. ■ ■ ' . 



D-76229 Karlsruhe, den 



1, Man 2003 




1. Datum des tatsiichlichen Eingangs dieser ■ • / : ' \ 
internationalen Anmeldung: ^ j MSfZ 2003 ( ** J 


2. Zeichnungen: 
1^1 eingegangen: 


3. Geandertes Eingangsdatum aufgrund nachtraglich, jedocH 1 
fristgerecht eingegangener Unterlagen oder Zeichnungen zur 
Vervollstandigung dieser internationalen Anmeldung: . - 


4. Datum des fristgerechten Eingangs der angeforderten 
Richtigstellungen nach Artikel 1 1(2)' PCT: 


| — | nicht ein- 
I 1 gegangen: 


5. Internationale Recherchenbehorde ^ n 
(falls zwei oder mehr zustdndig sind) IS A / 


6. 1 — 1 Obermittlung des Recherchenexemplars 

1 1 bis zur Zahlung der Recherchengebtthr 

aufgeschoben 





Vom Internationalen Bttro auszufUllen 



Datum des Eingangs des Aktenexemplars 
beim Internationalen Btiro: . 



Formblatt PCT/RO/101 (letztes Blatt) '(Juli 2001; Nachdruck Juli 2002) 



Siehe Anmerlcungen zu dieaem Antragsformular 
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Beschreibung 



• ! Die vorliegende Erfindung be'fafit sich mit der integration und/oder 
engeh Koppiung von rekonf igurierbaren Prozessoren mit Standardpro- 
20 zessoren, dem Datenaustausch und der Synchronisation der Datenver- 
arbeitung. sowie Compilern hierfur. 

Unter einer rekonf igurierbaren- Architektur werden : vorliegend Bau- 
. .steine .(VPU) mit konf igurierbarer ■ Funktion und/oder Vernetzung 
25 verstanden, insbesondere integrierte Bausteine mit einer Mehrzahl 
von ein- Oder mehrdiidensibnal angeordneten arithmetischen und/oder 
logischen und/oder analogen und/oder speichernden und/oder in- 
tern/extern vernetzenden Baugruppen, die direkt pder durch ein 
Bussystem miteinander verbunden sind.- 

30 . 

. Zur Gattung dieser Bausteine zahlen insbesondere systolische 
Arrays, neuronale. Netze, Mehrprozessor Systeme, Prozessoren mit 
mehreren Rechenwerken und/oder logischen Zellen und/oder koirimuni- 
■.. kativen/peripheren Zellen (IQ)., Vernetzungs- ' und Netzwerkbausteine 
35 wie'z.B. Crossbar-Schalter, ebenso wie bekannte Bausteine. der Gat- 
- tung FPGA, DPGA, Chameleon, XPUTER, etc.. Hingewiesen wird insbe- ' 
sondere in diesem Zusammenhang auf die folgenden Schutzrechte und . 
Anmeldungen .desselben Anmelders : , . 

•'. P 4'4: 16 881 Al, DE 197 81 412 Al, DE 197 81 483 Al, ,DE 196 54 846 
40 Al, DE 196 54 593 Al, DE 197 04 -044.6 Al, DE 198 80.129 Al, 

■ DE 198 61 088- Ai, DE 199 80 312 Al, PCT/DE .00/01869, DE 100 36 627 
Al, DE 100 28 3*97 Al, DE 101 io 530 Al, DE 101 il 014 Al, 
' PCT/EP 00/10516/ EP 01 102 674 Al, DE 198 80 128 Al, DE 101 39 170 
' Ai, DE,198,09 640 Al, DE 199 26 538, Q Al, DE 100 50 442 Al, PCT/EP 
45 0.2/02398, DE 102 40 000, DE 102 02 044, DE '102 02 175,- DE 101 ,29 
237, DE 101 42 904, DE 101 35 210,. EP 01 129 923, PCT/EP 02/10084, 
DE 102 12622, DE102 36 271, DE 102 12 621, EP 02 009 868, DE 102 
36 2'72, DE' 102 41 812, DE 102 36 269, 

DE 102 43 322, EP 02 022* 692< DE 103 00 380, DE 103 10 195, sowie 
50 die EP 02 001 331 und EP 02 027. 277. Diese sind hiermit zu Offen- 
barungszwecken vollumf anglich .eingegliedert 
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Die o.g. Architektur' wird beispielhaft zur Verdeutlichung herange- 
. zogen und im folgenden VPU genannt. Die. Architektur besteht aus 
beliebigen, typisch grobgranularen arithmetischen, logischen . (auch 
. . Speicher) und/oder Speicherzellen und/oder Vernetzungszell'en 
5 und/oder kommunikativen/peripheren (10) Zellen (PAEs). , die zu .ei- 
ner ein- oder mehrdiniensionalen Matrix (PA) angeordhet sein kon- 
nen, wobei die Matrix unterschiedliche beliebig ausgestal.tete Zel- 
len aufweisen- kann, und auch die Biissysteme* dabei als Zellen yer- 
standen werden konnen. Der Matrix als garize? oder Teilen davon zu- ■ 
10 geordnet ist eine Konf igurationseinheit (CT) , die die Vernetzung 
und Funktiori des PA durch Konf iguration bestimmt. Es kann eine 
^ingranulare Steiierlogik vorgesehen sein. t - 

f- 

•Verschiedene Methoden zum Ankoppeln von rekonf igurierbaren Prozes- 
15 soren an Standardprozessor.en sind bekannt . . Diese sehen fur gewGhn- 
lich eine lose' Kopplung vor. Die Art* und Weise der Kopplung bedarf 
in vielen Aspekten noch einer Weiterentwicklung, genauso wie die 
fur die gemeinsame Abarbeitung von Programmen auf Kombinationen 
aus rekonf igurierbaren Prozessoren und Standardprozessoren vorge- 
20 sehenen Kompilier- bzw. ( Betriebsverf ahren. 

* » • * ' ■ • 

Die Aufgabe der Erfindung ist es, Neues ftir die gewerbliche Nut- 
zung bereitzustellen. • 

25 Die Losung der Aufgabe wird uriabhangig beansprucht . Bevorzugte 
Ausftihrungsf ormen befinden sich.in den Unteranspriichen. 



Akte: PACT 2 9 



Beschreibung der Erfindung- 

30 

Ein Standardprozessor, z.B. ein RISC, CISC, DSP (CPU), werde mit 
einem rekonf igurierbaren Prozessor (VPU) gekoppelt Zwei unter- 
schiedliche, bevorzugt jedoch zugleich implementierte und/oder im-' 
plementierbare- Kopplungsvarianten werden beschrieben. 

m Eine erste Variante sieht eine direkte Ankoppelung- an den Befehls- 
F satz einer CPU. vor (Befehlssatzkopplung) . 

Eine zweite Variante sieht eine Ankoppelung liber Tabellen im j 

Hauptspeicher vor. 
40 Beide sind simultan jind/oder alternativ impl'ementierbar . 

Btaf elils s atzkoppelung 

Innerhalb eines Instruktionssets (ISA) einer CPU sind fur gewohn- . 
45- lich freie unbe.nutzte Befehle vorhanden. Einer odfer eine Mehrzahl 
dieser freien unbenutzten Befehle wird nunmehr ftir die Steuerung 
von VPUs verwendet (VPUCODE) . 

Durch die Dekodierung eines VPUCODEs wird eine Konfigura- 
50 tionseinhei.t (CT) einer VPU angesteuert die in Abhangigkeit des 
VPUCODEs bestimmte Ablaufe ausftihrt. 
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Beispielsweise kann ein VPUCODE. das Laden "und/oder Ausfuhren von 
Konf igurationen durch die Konf igurationseinheit (CT) fttr eine VPU 
auslosen. . ' 

5 Kommandoubergabe an VPU 

In einer ■ erweiterten Ausfiihrung kann ein VPUCODE liber eine Dber- , 
setzungstabelle, die bevorzugt von der CPU aus , fuf gebaut wird, auf 
unterschiedliche VPU-Koramandos ubersetzt werden. Die Konfigurati- 
10 onstabelle kann in Abhangigkeit von dem ausgefuhrten CPU -Programm 
Oder- Codeabschnitt gesetzt ■ werden. ■ , 

Die VPU ladt nach' Eintreffen eines Ladekornmandos Konf igurationen 
aus eihem eigeneji oder einem z. B. ,mit der CPU geteilten Speicher. 
15 ' Insbesondere kann eine Konf iguration im Code des aktuell ausge- 
fuhrten Programmes .beinhaltet sein. 

Nach Erhalt eines Ausf uhrungskommandos" ftihirt eine VPU die auszu- 
f Uhrende Konf iguration aus und die entsprechende - Datenverarbeitung 
20 durch. Das Beenden der Datenverarbeitung kann durch ein Terminie^ 
rungssignal (TERM) . an die CPU angezeigt werden.. 

VPUCODE-Verarbeitung aiaf CPU ■ 

25 Bei Auftreten eines VPUCO.DEs konnen. solange WarteZyklusn auf der 
CPU ausgefuhr't 'werden, bis das Terminierungs signal (TERM) der Be- 
. endingung der Datenverarbeitung von der VPU eintrifft. 

In einer bevorzugten Ausgestaltung wird mit der Verarbeitung der 
30 nachsten Codes f ortgef ahren. Tritt ein wjeiterer VPUCODE auf, kann 
sodann auf die Beendigung des vorhergehenden gewartet werden, oder 
samtliche gestartete VPUCODEs werden in einer Verarbeitungspipeli- 
ne eingereiht, oder ein Taskwechsel wird wie riachfolgend beschrie- 
ben ausgeftihrt; 

5 . 

Die Beendigung einer Datenverarbeitung wird durch das Eintreffen 
des Terminierungssignal (TERM) in einem. Statusregister signali- 
. siert. Die Terminierupgssignale treffen in der Reihenfolge einer 
moglichen Verarbeitungspipeline ein. Die Datenverarbeitung auf der 
40 CPU kann durch das Testen des Statusregisters auf das Eintreffen • 
eines Terminierungssignales synchronisiert werden. 

In einer moglichen Ausgestaltung kann, sofern eine Appiikation vor 
dem Eintreffen von TERM z.B. durch Datenabhangigkeiten nicht- fort- 
45 gesetzt werden kann, ein Taskwechsel ausgelost werden. 

Coprozessor-Kopplung (lose gekopipelt) 

50 Nach der DE 101 10 530 werden bevorzugt lose Kopplungen zwischen 
Prozessoren und VPUs aufgebaut, bei welchen VPUs weitestgehend als 
unabhangige Coprozessoren arbeiten. 
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Eine derartige Kopplung sieht typisch eine oder mehrere gemeinsame 
Datenquellen'und-senken, zumeis,t uber gemeinsame Bussysteme 
und/oder gemeinsame Speicher vor. Uber DMAs und/pder andere Spei- 
cherzugriffskontroller werden Daten zwischen einer CPU und einer 
5 VPU ausgetauscht. Die Synchronisation der Datenverarbeitung er- 
f'olgt bevorzugt uber eine Interruptsteuerung Oder einen Statusab-' 
. fragemechanismus (z.B. Polling). 

10 Rechenwerk-Kopplung (eng gekoppelt) 

Eine enge Ankopplung entspricht der vorab beschriebenen direkten 
Ankopplung ■ einer VPU in den Befehlssatz einer CPU. 

15 Bei' einer direkten Rechenwerk-Ankopplung ist besonders auf eine 
hohe Rekonfigurationsperformance zu achten. Bevorzugt kann daher 
die Wave-Rekonf iguration nach DE 198 07 872, DE 199 26- 538, -DE 100 
28' 397 zum Einsatz komrrien. Des weiteren werden die- Konf igurat ions - 
worte bevorzugt nach DE 196 54.846., DE 199 26 538, DE 100 28 397, 
DE 102 12 621 vorab derart vorgeladen, dass bei Ausfuhrung des Be- 
fehls die Konf iguration besonders schnell (beispielsweise mittels 
WaVe-Rekonfigu-ration im Optimalfall innerhalb eines Taktes) kon- 
figuriert werden kann. . 

25 Fur die Wave-Reconfiguration werden bevorzugt die voraussichtlich 
auszufiihrenden Konf igurationen vorab durch den Compiler zur Compi- 
lezeit erkannt, d. h.' abgeschatzt und/oder vorhergesagt, und zur 
Laufzeit entsprechend vorgeladen, soweit maglich. Mogliche Verfah- 
ren sind beispielsweise aus DE 196 54 846, DE 197 04 728, DE 198 

30 07 872, DE 199 26 538, DE 100 28 397, DE 102 12 621 bekannt. 

Zum Zeitpunkt der ' Bef ehlsausfuhrung wird die. oder eine entspre^- ■ 
chende Konf iguration selektiert und ausgefUhrt. Auch derartige 
Verfahren sind nach den o.g. Schriften bekannt. Besonders ' bevor- 
zugt werden Konfigurationen in Schattenkonf igurationsregister vor- 
geladen, wie beispielsweise aus DE 197 04 728 (Fig. 6) und DE 102 
12 621 (Fig. 14) bekannt, um dann bei Abruf besonders schnell zur 
Verfugung zu stehen. 



20 



40 



Datentransf ers 

Eine mogliche Impiementi'erung wie beispielsweise in Figur 1 darge 
stellt kann unterschiedliche Datentransf ers zwischen einer CPU 
(0101) und VPU (0102) vorsehen. Die auf der VPU auszufiihrenden. ; 
45 Konfigurationen werden durch den Instruktionsdekoder (0105) der 

CPU selektiert, der bestimmte, ftir die VPU bestimmte Instruktionen 
erkennt und die CT (0106) derart ansteuert, dass diese die ent- 
' sprechenden Konfigurationen aus einem der. CT zugeordneten Speicher 
(0107), der insbesondere mit der CPU geshared werden oder derselbe 
wie der Arbeitsspeicher der CPU sein kann, in das Array aus PAEs. 
.(PA, 0108) ladt. ' 
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Es soli ausdrucklich angemerkt werden,- class in' Figur 1 aus Grunden 
der Obersichtlichkeit nur. die relevanten Komponenten (i-b.. der 
' ; CPU) aufgezeigt sind und eine wesentliche Zahl weiterer Komponen- 
ten und Netzwerke vorhanden sind, ■ 

■ Drei besonders bevorzugte einzeln Oder. koitibindLert ' einsetzbare Me- 
thoden werden nachfolgend beschrieben. , 

. Register 

10 Bei einer Register kopplung kann die VP.U Da.ten aus einem CPU- 
Register (0103) entnehmen, verarbeiten » und In ein Oder das CPU- 
Register zurxickschreiben. . 
. Bevorzugt werden Synchronisationsmechanismeh zwischen der CPU. und 
' der VPU eingesetzt. ' : 
15 Beispielsweise kann die VPU durch das Einschreiben der Daten in 
ein CPU-Register durch, die CPU ein *RDY-Sigrial (DE 196 51 '075/ DE 
:110 10 530) erhalteh und daraufhin die' eingeschriebenen Daten ver- 
arbeiten. Das Auslesenvon Daten aus einem CPU-Register durch die 
CPU kann 'ein ACK-Signal (DE 196' 51.075, DE'110 10 ( 530) generieren, 
20 wodurch die Datenabnahme durch die CPU der VPU signalisiert wird. 
CPUs stellen typischerweise keine entsprechenden Mechanismen zur - 
Veifugung. 

Zwei mogliche L6sungen werden n&her beschrieb£n: 
25 Ein-einfach zu reaisierehden Ansatz ist, die Datensynchronisation 
' iiber ein . Statusregister (.0104) durchzuf iihren . Beispielsweise . kann 
• die VPU das erfolgte Auslesen von Daten aus einem Register und das 
damit verbundene ACK-Signal (DE 196 51' 075, DE 110 10. 530). . . 

und/oder das Eihschreiben von Daten in ein Register und das damit, 
30 verbundene RDY-Signal (DE 196 51 075,. DE 110 10 530). indent Sta- ■ 
• tusregister anzeigen. Die CPU testet zunachst das Statusregister 
und fiihrt beispielsweise so lange Warteschleif en oder' Taskwechsel 
aus, bis' - je nach Operation - das RDY oder ACK eintraf.. Danach 
fiihrt die CPU den jeweiligen Regis terdatentransf er aus. 

In' einer erweiterten Ausgestaltung wird der Befehlssatz der CPU up 
l'oad/store-Instruktionen mit integrierter Statusabf rage x (loadjtrdy, 
store_ack) erweitert.. Beispielsweise wird. bei einem store_ack nur 
dann ein neues Datenwort in ein CPU-Register geschrieben, wenn das 
40 Register vorher.von der VPU ausgelesen wurde und ein ACK eintraf. 
Entsprechend liest load_rdy nur Daten aus einem CPU-Register, wenn'- 
, die VPU vorher neue Daten eingeschri.eben und ein RDY generiert 
hat . - • 
*' • ' - « 

45 Daten, die zu einer; auszufiihrenden Konf iguration gehoren, konnen 

successive, quasi durcti Block-Moves, nach dem Stand der Technik in • 
die CPU-Register geschrieben oder aus diesen gelesen werden. Ggf. 
implementierte Block-Mbve-Instruktionen konnen bevorzugt durch die 
beschriebene integrierte RDY/ACK Statusabf rage erweitert werden. 



50 



Eine zusatzliche oder alternative . Variante sieht vor, dass die Da- 
tenverarbeitung innefhalb der - an die CPU gekoppelten VPU exakt 
gleichviele Takte benotigt wie. die Datenverarbeitung innerhalb. der 
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Rectienpipeline der. CPU. I'nsb.esonder'e bei modernen Hochleistuhgs-' 
CPUs mit einer Vielzahl von Pipellnestuf en (>20) kanpdieses Kon- 
' zept ideal eirigesetzt werden. Der besondere Vorteil ist, " dass kei- 
ne besdnderen Synchroriisationsmechanismen wie z. B. RDY/ACK not- . 
5. -wendig sirid. Der 'Compiler braucht Jbei di'esem Verfahren lediglich 
sicherzustellen, s dass die VPU die • erf orderliche Anzahl .an Takten ■. 
einhalt und ggf- die 'Datenverarbeiturig z.'B.' durch das.Einfiigen 
von Verzogerungsstufen wie z. %B. Registerii und/oder den aus DE 110 
10.530, Fig. 9/10 , . bekannten Fall-Through FIFOs . aus zubalancieren. 

10 : ' . • • 

Eine weitere Variante eanrioglicht ein unterschiedliches Laufzeit- 
• '"' verhalten' zwischen dem Datenpf ad der CPU und der VPU. Dazu werden ' 
vom Compiler bevorzugt zunachst die . Datenzugrif fe derart umsor- 
tiert,'dass eine wenigstens im wesentlichen . maximale Unabhahgig- 
15 keit zwischen den Zugriffen durch den Datenpf ad der CPU und der 
VPU vorliegt. Die maximale Distanz defiriiert damit den maximalen 
Lauf zeituntejrschied zwischen dem CPU Datenpfad und der VPU. Mit' 
anderen Worten wird bevorzugt durch eine Reordering Methode, wie 
sie per se nach dem' Stand der Technik bekannt ist, der Lauf zeitun- 
20 terschied zwischen CPU-Datenpf ad : und VPU-Dateripf ad ausg'eglichen. 

Wenn der Lauf zeitunterschied zu grofi. ist, um durch ein Umsortieren 
der Datenzugrif fe' gelost -zu werden, konnen per Compiler 'NOP- 
Zyklusn (also ' Zyklusn,. in denen der CPU-Datenpf ad keine Daten ver- 
arbeitet) eirigefugt und/oder per Hardware so'Jange WarteZyklusn im 
25 CPU-Datenpfad generiert werden", bis, die no twendigen Daten' von der 
VPU in das Register geschrieben wurden. .Dazu konnerj. die Register 
mit einem zusatzlichen Bit versehen werden, das das Vorhandensein 
' gultiger Daten anzeigt. i _ • 

30 \ Es ist ersichtlich, dass eine Vielzahl von , eihf achen Modif ikatio-' 
nen Und unteir.schiedlichen Ausgestaltungen dieser Grundverf ahren 
.moglich ist.. 

Die bereits erwahnte Wave-Rekonf iguratiori, inbesondere auch das 
1*5 Vor laden von Konf igurationen. in Schattenkonf igurationsregister , 
m erlaubtdas sukzessive Starten eines neuen VPU-Befehls und der 
W entsprechenden Korif iguration, sobald die Operanden des vorherge- 
: henden VPU-Befehls aus den CPU-Registern" abgenommen wurden. Die 
Operanden fur den neuen Befehl- konnen direkt nach Befehls start in- 
40 die CPU-Register geschrieben werden. Entsprechend des Wave- 
Rekonf iguration-Ver'fahrens wird die VPU sukzessive mit Fertigstel- 
/lung der Datenverarbeitung des vorherigen VPU-Befehls fur den neu- • 
' ■ en VPU-Befehl umkonf iguriert .und die neuen Operanden- verarbeitet. 

45 ' . ' • 

Buszugrif fe 

Weiterhin konnen Daten zwischen einer VPU und einer CPU durch- ge- 
• eignete Buszugriffe auf gemeinsame Ressourceh ausgetauscht werden. 

50 Cache , ( • ' 

Sofern Daten ausgetauscht werden sollen, die ' kurz zuvor von der 
' CPU verarbeitet wurden und daher vo'raussichtlich noch im Cache 

(0109) der CPU liegen.bzw.' sofort anschliessend von der CPU. verar- •. 
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beitet -werden und daher sinnvollerweise in den Cache der ,CPU ge--' 
legt werden, werden diese bevorzugt von der VPU 3iis dem Cache der 
CPU gele«sen, bzw. in den Cache der CPU geschrieben. Dies kann 
durch geeignete Ahalysen weitestgehend vorab zur Compilezeit der 
. 5 - Applikation durch den Compiler festgestellt und es kann der Binar— 
code entsprechend generiert werden. 

• Bus - , 
Sofern Daten ausgetauscht werden sollen, die sich vqrausslchtlich 
10 nicht im Cache der CPU befinden bzw. voraussichtlich nicht nach-. 
folgend im Cache der CPU benotigt werden, werden' diese 'bevor zugt 
Von der VPU direkt vom externen Bus (0110) und der damit vefbunde- . 
nen Datenquelle (z.B. Speicher, , Peripherie) gelesen, bzw. an den 
externen Bus und der damit verbundenen .Datensenke (z.B. Speicher, 
* 15 Peripherie) geschrieben'. Dieser Bus kann insbesondere derselbe wie 
der externe Bus der CPU sein (0112 & gestrichelt) . Dies kann durch 
geeignete Analysen weitestgehend vorab zur Compilezeit der Appli- 
cation durch den Compiler festgestellt und der Binar code entspre- 
chend generiert werden. , 
20 

Bei einem Transfer iiber den Bus am Cache. vorbei wird bevorzugt em 
Protokoll (Oill) zwischen Cache und Bus implement ie.rt , das fur ei- 
• ." nen korrekten Inhalt des Caches sprgt. Beispielsweise kann das per 

se bekannte MESI-Protokoll nach dem Stand der "Technik hierzu ver- 
25 wendet werden. ' 

Cache /RAM- PAE Kopplung . 

Ein besonders bevorzugtes Verfahren ist die 'eiige, Kopplung von RAM- 
PAEs an den Cache der CPU. Dadurch kSnnen Daten schnell und effi- 
30 zient zwischen dem Speicher- und/oder. 10- Datenbus und der VPU 

iibertrage'n werden. Die. Datenubertragung nach extern wird weitest- 
gehend automatisch- durch den Cachekontroller . durchgefiihrt . 

•5 Insbesondere bei Taskwechselvorgangen, fur Realtime Anwendungen 
I und Multithreading CPUs bei .dem Wechsel von Threads' erlaubt dieses 
Verfahren einen schhellen und unkomplizierten Datenaustausch. 

Zwei grundlegende Verfahren stehen zur Verftigung: 

a) RAM-PAE / Cache Kopplung. 

Die RAM-PAE iibertragt Daten z. B. zum Lesen und/oder Schreiben von 
externen und insbesondere Hauptspeicher-Daten direkt zu und/oder 
vom Cache, bazu kann bevorzugt ein separater Datenbus nach DE 196 
54 595 und DE 199 26 538 verwendet werden, liber welchen unabhangig 
von der Datenverarbeitung innerhalb der VPU und insbesondere auch • 
automatisch gesteuert, z.B. durch eigenstandige Adressgeneratoren, 
Daten zu oder von dem Cache iibertragen werden konnen. 

50 b) RAM-PAE als Cache-Slice ' 

In. einer besonders bevorzugten Ausgestaltung weisen die RAM-PAEs. 
ke.inen internen Speicher auf, sondern, sind direkt an Blocke (Sli- 
ces) des Caches gekoppelt. Mit anderen Worten, beinhalten die RAM- 
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PAEs lediglich die Busansteuerungen fur die lokalen Busse, sowie 
eventuelle" Zustand'smaschinen und/oder eventuelle Adressgenerato- 
ren, der Speicher befindet sich' jedoch innerhalb einer Cachespei- 
cherbank auf die die RAM-PAE direkten Zugriff hat. Jecie RAM-PAE 
•5 besitzt eine eigene ' Slice innerhalb des Caches und kann unabh&ngig 
und insbesondere gleichzeitig .zu den anderen RAM- PAEs und/oder der 
CPU auf den. Cache,, bzw. den eigenen Slice, zugreifen. Dies .kann . 
. einfach dadurch realisiert werden, dass der Cache aus mehreren un- 
. abh&ngigen Banks (Slices) aufgebaut ist. 

10 

Sofern 'der Inhalt einer Cache-Slice durch die VPU ver^ndert wurde, 
kann, dieser bevorzugt als "dirty" markiert werden, woraufhin der 
Cache kontroller dieseri automatisch in den externen und/oder- Haiipt- 
Speicher zurlickschreibt. " 
15 .. ." 

Furmanche Anwendungen kann zusatzlich eine Write-Through Strate- 
gie implementiert oder gewahlt sein. Hierbei werdea neu von der 
VPU in die RAM-PAEs geschrieben Daten direkt mit jedem Schreibvor- . 
gang , in den externen und/oder Haupt-Speicher zuruckgeschrieben. 
20 Dadurch entfallt zusatzlich die Notwendigkeit Daten mit "dirty" zu 
markieren und diese bei einem Task- und/oder Threadwechsel in den 
externen und/pder Haupt-Speicher zuriickzuschreiben. 

In beiden Fallen kann es sinnvoll sein, bestiitfoite Cache-Bereiche 
25 far die RAM-PAE/ Cache Kopplung fur den Zugriff durch die CPU zu 
sperren. 1 , 

An die beschriebene Architektur, insbesondere direkt an die VPU, 
kann ein FPGA (0113) gekoppelt sein, um f eingranulare Datenverar- 

30 beitung zu ermSglichen und/oder ein flexible adaptierbare Inter- 
face (0114) (z. B. diverse serielle Schnittstellen (V24, USB, 
etc.), diverse parallele Schnittstellen, Festplattenschnittstel- 
len, Ethernet, Telekoitmiunikat ions schnittstellen (a/b, TO, ISDN, 
DSL, etc.) zu weiteren Baugruppen und/oder dem externen Bussystem 
5 (0112) zu ermoglichen. Der FPGA kann dabei aus der VPU^- 

Architektur, insbesondere durch die' CT, und/oder durch die CPU 
• konfiguriert werden. Der FPGA kann statisch, also ohne Rekonfigu- 
ration zur Laufzeit und/oder dynamisch, also mit- Rekonf iguration 
zur Laufzeit, betrieben werden. 1 

40 . » 

FPGAs in ALUs 

In einer "prozessororientierteren" Ausgestaltung 'konnen innerhalb 
einer ALU-PAE FPGA-Elemente auf genominen werden. Dabei kann ein 
45 FPGA- Dat enp fad parallel zu der ALU gekoppelt seiri, . oder in einer 
bevorzugten Ausgestaltung der ALU vor- oder nachgeschaltet sein, 

> Innerhalb von in Hochsprachen wie C geschriebenen Algorithmen tre- 
ten bit-orieritierte Operatignen zumeist sehr sporadisch auf und 
50 sind nicht besohders aufwendig-. Daher ist ein FPGA- Auf bau von ei- 
nigen wenigen Zeilen von Logikelementen jeweils miteinander ver- 
koppelt durch' eine Zeile von VerdrahtungskanSlen hinreichend. Eine 
derartige Struktur lasst sich kostengttnstig und einfach program- 
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mierbar in die ALU einbinden. Ein wesentlicher Vorteil fur die' 
nachfolgend erlauterten Programmiermethoden kann sein, dass die 
Durchlaufzeit durch die FPGA-Struktur derart begrenzt ist, dass 
sich das Laufzeitverhalten der ALU .nicht verandert . Register brau- 
chen nur zur Speicherung von Daten fur deren Einbeziehung als Ope- 
randen in den im nachsten Takt nachfolgenden Verarbeitungszyklus 
zula'ssig z'u sein. 

Besonders .von Vorteil ist die . Impleroentierung von. optional hinzu- 
konfigurierbaren Register, urn ein sequentielles -Verhalten' der . 
Funktion durch beispielsweise Pipelining herzust.ellen. Dies ist 
besonders dann von Vorteil, wenn Rueckkopplungen in dem Code fuer 
die FPGA-Struktur vorkommen. Diese kann der Compiler dann ueber 
das Einschalten solcher Register. per Konf iguration abbilden und 
somit seguentiellen Code korrekt. abbilden. Der Zustandsmaschine 
der PAE,'die deren Abarbeitung steuert, wird die Anzahl.der einge- 
fuegten Register per Konf iguration mitgeteilt, sodass diese... ihre 
Steuerung, insbe sender e ' auch der PAE-externen Datenuebrtragung , 
auf die erhoehte Latenzzeit abstimmen kanii. 

Von besonderem Vorteil ist ein Aufbau der FPGA-Struktur, ' die ohne 
Konf iguration, also z. B. nach einera Reset, automatisch autneu- 
tral geschaltet ist, d.' h.' die . Eingangsdaten ohne 3 egliche Modifi- 
cation durchleitet. Damit werden, bei nicht vSrwendeten FPGA- 
Struktureh keinerlei Konf igurationdaten zu deren Emstellung beno- 
tigt und somit Konf igurationszeit und -datenp.latz in den- Konfigu- 
fationsspeichern eingesp'art. 



Betr xebssys tenmechanismen 

Die beschriebehen Verfahren sehen zunachst keinen besonderen Me- 
chanismus fur die Untersttitzung von Betriebssystemen vor. Es ist , 
namlich bevorzugt sicherzustellen, dass ein ; auszufuhrendes .Be- 
triebssystem sich entsprechend des Status emer zu unterstutzenden 
VPU verhalt. Insbesondere sind Scheduler erf orderlich. 

Bei einer engen Rechenwerkkopplung wird bevorzugt das Statusregi- 
■sterder CPU abgefragt, in 'welches die angekoppelte VPU ihrenDa- 
tenverarbeitungs status (Terminierungs signal) eintragt. Soli erne 
weitere Datenverarbeitung an die, VPU tlbertragen werden, und die 
VPU hat die vorherige Datenverarbeitung noch nicht beendet, wird 
gewartet ' Oder bevorzugt ein Taskwechsel ausgeftihrt. 

Grundsatzlich kann die Ablauf steuerung einer VPU direkt von einem. 
,'auf der CPU ausgefuhrten Programm erfolgen, das ■ quasi das^Haupt 
programm darstellt, das bestimmte Unterprogramme auf die VPU aus- 
lagert. , 

Fur. eine Coprozessorkopplung werden bevorzugt uber das Betriebssy- 
• stem, i.b. deh Scheduler gesteuerte Mechamsmen verwendet, wobei 
grundsatzlich' die Ablauf steuerung einer VPU direkt von einem auf 
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der CPU ausgefuhrten Programm erfolgen kann, das quasi das Haupt-. 
programm darstellt,- das be'stimmte Unterprogramme- auf die VPU aus- 

.Ei^einfacher Scheduler kann -nach Ubertragung einer Funktion auf . 
eine VPU ■■ • . 

1 das- aktuelle Hauptprogramm auf der CPU weiterlaufen lassen, , • 
sofern dieser unab'hangig und parallel zur Datenverarbeitung 
auf einer VPU abla.ufen kann; /•.'.' •. 

2 ' sofern oder sobald das Hauptprogranim auf die Beendigung der. - , 
"' Datenverarbeitung auf der VPU warten muss, schaltet der Task- 
»"• scheduler auf einen anderen Task (z.B. ein anderes Hauptpro- 

' ■" gramm) urn. Die VPU kann dabei unabhangig des gerade aktuellen ■ 
• CPU-^Tasks im Hintergrund. weiterarbeiten. 

Jeder neu aktivierte Task muss,, sofern er die VPU verwendet, vor 
Verwendung' prtifen, ob die se .fu'r eine Datenverarbeitung zur Verfu- 
oung- steht oder ■ aktuell noch • Daten verarbeitet; dann muss entweder 
auf die Beendigung. der Datenverarbeitung gewartet oder bevorzugt 
der Task gewechselt werden. 

• Ein einf aches und. denhoch leistungsf ahiges' Verfahren kann durch 
sogenannte Descriptor Tables aufgebaut werden, die bespielsweise 
folqendermassen realisiert werden kOnnen:. • • • ' . . 

Jeder Task generiert zum Aufruf der VPU eine 'dder mehrere Tabel- 
le (n) (VPUPROC) mit einem geeigneten festgeiegten Datenformat in 
dem ihm zugewiesenen Speicherbereich. Diese. Tabelle beeinhalte.t 
samtliche Steueririformation fiir eine VPU, wie z. B.,das .auszufUh- 
rende Programm / die auszuftihrende (n) Konf iguration (en) (oder Zei- 
qer auf. die entsprechenden Speicherstellen) und/oder Speicherstel- 
•le(n) (oder jeweils Zeiger darauf) und/oder Datenquellen (oder je- ' 
weils Zeiger darauf). der Eingangsdaten und/oder die Speicher.stel- 
le(n) (oder jeweils Zeiger" darauf ) der Operanden oder der Ergeb- 
nisdaten. 

35 Entsprechend Figur 2 kann sich im Speicherbereich des- Betriebssy- 
stems beispielsweise eine Tabelle oder verkettete Liste (LINKLIST, 
' 0201) 'befinden, ,die auf samtliche VPUPROC-Tabellen (0202) ■ in der 
Reihenfolge ihref Erstellung und/oder ihres. Auf ruf s zeigt. 

40 Die Datenverarbeitung auf der- VPU lauft nunmehr derart ab, dass ' 
ein Hauptprogramm . einen VPUPROC erstellt und tiber das B.etriebssy- 
stem die VPU auf ruf t.. Das Betriebssystem erstellt einen Eintrag. m 
' der LINKLIST: Die VPU arbeitet.die LINKLIST ab- und fuhrt die je- 
weils referenzierten VPUPROC aus. Die Beendigung einer jeweiligen 

45 ' Datenabarbeitung ;wird jeweils durch einen entsprechenden Eintrag 
in die LINKLIST und/oder VPUCALL Tabelle angezeigt. Alternativ^ . 
konnen Interrupts ' von der VPU zur CPU ais Anzeige und ggf . auch 
zum Austausch des VPU-Status verwendet werden. 

50 Die VPU arbeitet in diesem erf indungsgemall bevorzugten Verfahren 
' weitgehend unabhangig von der CPU. Insbesondere kann die CPU und 
die VPU unabhangige und uhterschiedliche Tasks je Z.eitemheit aus- 
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ftihren. Das- Betriebssystem und/oder .die jeweiligen Task miissen le- 
'diglich die Tabellen (LINKLIST bzw. VPUPROC) uberwachen. ■.. 

Alternativ kann auch auf die LINKLIST verzichtet werden, . indem die 
VPUPROCs untereinander durch Pointer- verkettet werden,. wie es z.B. 
•aus Listen bekannt ist. Abgearbeitete VPUPROCs werden aus der Li- 
ste entfernt, neue in die: Liste eingefiigt. Das Verfahren istPro- 
grammierern bekannt und- muss daher nicht - weitergeherid ausgefiihrt 
werden; 



Multithreading/Hyperthreading V 
■ Von besonderem Vorteil ist die Verwendung von Multithreading 
und/oder Hyperthreading Technologien, bei welchen ein - bevorzugt 

15 in Hardware implementierter -Scheduler f eingranular Applikationen 
und/oder Applikationsteile (Thread) auf Ressourcen mnerhalb des 
Prozessors verteilt. Dabei wird der VPU-Datenpf ad als eine..Res- , 
source fuer den Scheduler betrachtet. Eine saubere Trennung des 
CPU-Datenp fades und. des VPU-Datenpf ades ist durch Implementierung 

20 von Multithreading und/oder Hyperthreading Technoiogien- im Compi- 
ler' bereits per Definition gegeben/ Zusaetzlich ehtsteht der Vor- 
• . teil, dass bei belegter VfU-Res source innerhalb eines- Task emfach • 
zu einem' anderen Task gew'echs'elt werden. kann und somit eine besse- 
re Auslastung der Ressourcen erfolgt. Gleichz^itig wird die paral- 

25 • lele Ausnutzung von. CPU-Datenpf ad und VPU-Datenpf ad zugle.ich be- 
guenstigt.. ., ' 

Insoweit stellt Multithreading und/oder . Hyperthreading- em. gege- 
nueber den vorstehend beschriebenen. LINKLIST zu bevprzugendes Ver- 
fahren dar . v •' • • 

Besonders performanceef f izient airbep-ten die beiden- Verfahren, wenn 
als VPU eine Architektur zum Einsatz kommt, die eine mit der Da 7 
tenverarbeitung uberlagerte Re'konf iguration ziilasst, wie z. B. die 
Wave-Reconfiguration nach DE 198 07 .872, DE 199 26- 538, DE 100 28 

397 . ... 
Damit ist es moglich, eine neue Datenverarbeitung und eine 'ggf . 
damit verbuhdehe Rekonf iguration sofort nach lesen der letzten 
Operanden aus> den Datenquellen zu starten. Mit anderen Worten ist 
far- die Synchronisation nicht mehr das Beenden der DatenVerarbei-. 
40 tung, sonderh das Lesen der letzten Operanden erforderlich. Da- 
. durch .wird die ' Performance der Datenverarbeitung erheblich gestei- 
gert. ' . 

Figur 3 zeigt eihen moglichen- interneri Aufbau • eines Mikroprozes- 
45' sors- oder Mikrokontrollers . Dargestellt ist der Kern (0301) emes 

Mikrokontrollers' oder Mikroprozessor's . Der beispielhafte Aufbau 
. beinhaltet ' weiterhin eine Load/Store Einheit zum .Ubertragen der 

Daten zwischen dem Kern und dem externen Speicher und/oder den Pe- 

ripheriegerateh. Die.Obertragung findet uber.das Interface 0303 
50 statt, an das weitere Einheit.en, wie. MMUs, Caches, etc. angekop- 

pelt sein koennen. . 

In einer Prozessorarchitektur nach dem Stand der Technik ubertragt 
die Load/Store Einheit die. Daten zu oder von einem Registersatz 
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(0304) , welcher sodann die Daten fur die interne Weiterverarbei- 
tung' zwischensp/eichert. Die interne Weiterverarbeitung fmdet in 
einem oder mehreren Datenpfaden statt, die jeweils identisch Oder 
auch unterschiedlich ausgestaltet sein konnen (0305) . Insbesondere 
5 konnen auch mehrere Registersatze vorhanden sein, wbbei diese wie- 
derum ggf .' an unterschiedliche Datenpfade angekoppelt sein konnen 
(z'.B.' Integer-Datenpfade, Floating-Point-Datenpf ade, DSP- . 
• Datenpfade 7 Multiply-Accumulate-Einheiten) . 

10 Datenpfade entnehmen typischerweise Operanden aus der Registerein- 
heitund schreiben die Ergebnisse .nach der Datenverarbeitung wie- 
der an die Registereinheit znrtlck. Dem .Kern zugeordnet (oder im - 
• Kerri beinhaltet) ist eine Instruktionsladeeihheit (Opcode-Fetcher , 
0306), die die Programmcodebef ehle aus dem Programmspeicher ladt, 
15 ubersetzt und sodann die notwendigen Arbeitsschritte innerhalb des 
Kerns ansteuert. Das Holen der Befehle geschieht uber em Inter- 
face (0307) zu einem Codespeicher, dem ggf ,. MMUs, Caches, etc. 
zwis'chengeschaltet sein konnen. 

20 Dem Datenpfad 0305 parallelgeschaltet ist der VPU-Datenpf ad ' ' 
(0308), der auf den Registersatz 0304 - lesend und liber die nachfol- 
gend beschriebene Daten-Register-Zuordungseinheit (0309) schrei- 
bend zugreiferi kann. Der Aufbau eines VPU Datenpfades ist ber- 
spielsweise aus DE 196 51 075, DE 100 50 442, ^DE 102 06 653 und 
25 mehreren Verof fentlichungen der Anme.lderin bekannt. 

Der VPU-Datenpfad wird uber den Konf igurationmana'ger (CT) 0310 ■ 
konfiguriert, der die Konf iguratiohen uber einen Bus 0311 aus ei- 
. nem externen Speicher ladt. Der Bus 0311 kann identisch mi t 0307 
30 sein, wobei je nach Ausgestaltung zwischen 0311 und 0307 und/oder 
den Speicher. ein oder mehrere Caches . geschaltet sein konnen. 

Welche Konfiguration zu einem bestimmten Zeitpunkt konfiguriert 
und ausgefuhrt werden soli,, wird uber besondere Opcodes durch^den 
OpCode-Fetcher 0306 definiert. Dazu kann einer Reihe von fur .den 
VPU-Datenpfad reservierten Opcodes eine Anzahl, von mbglichen Kon- 
figurationen zugeordnet werden. Die Zuordnung kann uber eine um- 
programmierbare Lookup-Tabelle (siehe 0106) , die 0310 vorgeschal- 
tet ist, erfolgen, so dass' die .Zuordnung frei programmierbar und 
innerhalb der Applikatidn veranderbar ist. ' 

in einer applikationsabhangig moglichen Ausgestaltung kann bei :ei- 
nem Auf ruf einer VPU-Datenpf adkonf iguration . das Zielregister der 
Datenberechnung in der Daten-Register-Zuordungs-emheit _ (0309) 
45 verWaltet werden. Dazu wird das vom OpCode definierte Zielregister 
in einen Speicher bzw. Register (0314) geladen, der - urn mehrere 
VPU-Datenpf adauf ruf e direkt nacheinander und ohne Bertlcksichtigung 
der Abarbeitungszeit der jeweiligen Konfiguration zuzulassen - als 
FIFO ausgestaltet sein kann. Sobald eine Konfiguration die Ergeb- 
nisdaten liefert, werden diese mit der jeweils zugeordneten Regi- 
steradresse verknUpft (0315) und das entsprechende Register in 
0304 selektiert und beschrieben. 

.12 
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Damit kennen eine Vieizahl von VPU-Datenpfadaufruf e direkt hmter- 
einander und insbesondere uberlagernd erfolgen.. Es ist lediglich 
sicherzustellen, beispielsweise durch Compiler oder Hardware, dass 
die Operanden und Ergebnisdaten derart gegenuber .der Datenverar- 
beitung in dem Datenpfad 0305 umsortiert sind, dass keine Storung 
durch unterschiedliche Lauf zeiten . in 0305 und 0308 auftreten-.. 

Wenn der SpeicHer bzw. FIFO 0314 voll ist, wird die Verarbeiturig 
einer ggf. neuen Konf iguration fur 0308 verzsgert.. Sinnvollerweise 
kann 0314 so viele Registerdaten aufnehmen, wie 0308 Konf iguratio- 
nen in einem Stack (siehe DE 197 04 728, « 

DE 100 28 397, DE 102 12 621) vorladen kann. Uber den Speicher 
0314 konnen zusatzlich zu einer Verwaltung durch den Compiler auch 
die Datenzugriffe auf den Registersatz 0304 gesteuert werden. 

Findet ein Zugriff auf ein Register, das in 0314 vermerkt ist, 
• statt, kann dieser so lange verzogert werden, bis das Register be- . 
schrieben wurde und dessen Adresse aus 0314 entfernt wurde . 

20 Alternativ und'bevorzugt konnen die eirifachen Synchronisa- 

tionsmethoden nach 0103 verwendet werden, wobei ein besonderes 
. synchrones Datenempf angsregister in dem Registersatz 0304 vorgese- 
hen sein kann, auf das nur dann lesend zugegriffen werden kann, 
wenn der VPU-Dateripf ad 0308 zuvor neue Daten in das Register ge- 

25 schrieben hat; umgekehrt konnen Daten von dem VPO-Datenpf ad nur 

dann geschrieben werden, wenn die vorherigen Daten gelesen wurden. 
Insoweit kann 0309 ersatzlos entfallen. 

Wird eine VPO-Datenpfadkonf iguration aufgerufen die bereits konfi- . 
guriert ist, findet keine Neukonf iguration mehr statt. Daten wer- 
den sofort zur Verarbeitung.aus dem' Registersatz 0304 in den VPU- 
Datenpfad ubertragen und verarbeitet. Der Konfigurationmanager 
speichert die aktuell geladene Konf igurationskennnummer in emem 
Register und vergleicht diese mit der von zu ladenden Konf igurati- 
onskennnummer, die' beispielsweise ueber eine Lookup-Tabelle (siehe 
0106) an 031O ubertragen wird. Nur wenn die Nummern nicht uberein- 
stimmen, wird die aufgerufene Konf iguration neu konf iguriert . 

Die Load/Store-Einheit ist in Fig. 3 nur schematisch und grundle- 
40 gend dargestellt, eine bevorzugte Ausfiihrung wird in Fig. 4 und 5 
'ausfuhrlich dargestellt . , Uber ein Bussystem 0312 kann der VPU- ■ 
Datenpfad (0308) direkt Daten mit der Load/Store Einheit und/oder 
dem Cache Ubertragen, uber einen weiteren applikationsabhangig 
moglichen Datenpfad 0313 konnen Daten direkt zwischen VPU- • 
45 ■ Datenpfad (0308) und Peripheriegeraten und/oder externem Speicher 
ubertragen werden. 

Figur 4 zeigt .eine besonders bevorzugte Ausgestaltung der 
Load/Store-Einheit. . 
Ein wesentliches Datenverarbeitungsprinzip der VPU Architektur 
sieht an das Array aus ALU-PAEs gekoppelte. Speicherbloecke vor, 
die quasi ais Registersatz fur Datenblocke dienen. Das Verfahren 
ist aus DE 196 54 846, DE 101 39 170, DE 199 26 538, DE 102 06 65.3 
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bekannt. Hierzu bietet es sich, wie nachfolgend beschrieben, an, 
LOAD und STORE Befehle als Konf iguration innerhalb der VPU abzuar- 
beiten, was eine Verschaltung der VPU. mit der Load/Store Einheit ^ 
(0401) der CPU iiberflussig macht. Mit anderen Worten generiert die 
VPU ihre Lese- und Schreibzugrif f e selbst, wodurch ein direktej: . 
Anschluss (0404) an den externen * und/oder Haupt-Speicher. sinnvoll 
ist. Dieser g:eschieht bevorzugt tiber einen Cache (0402), der der- 
selbe wie der Datencache des Prozessors' sein kann. Die Load/Store- 
Einheit des Prozessors (0401) greift direkt und parallel zu der 
VPU (0403) auf den Cache zu ohne - im .Geg'ensatz zu 0302 einen 
Datenpfad ftir die VPU aufzuweisen. 

Figur 5 zeigt besonders bevorzugte Ankopplungeri der VPU an den ex- 
ternen und"/ oder Haupt- Speicher tiber einen Cache. 

Die einfachste Verbindungsmethode ist tiber einen IO-Anschluss der 
VPU, wie beispielsweise aus DE 196 51 075/9-53, DE 196 54 595.1- 
53, DE" 100 50 442.6, DE 102 06 653.1 bekannt, tiber WelChen Adres-. 
sen und Daten zwischen Peripherie und/oder Speicher und der VPU 
ubertragen werden. Besonders leistungsf ahxg sind aber direkte An- 
kopplungen , zwischen den RAM-PAEs und dem Cache, wie aus DE 196 54 
595 und DE 199 2 6 538 bekannt. Beispielhaft fur ein rekonf igurier- 
bares Datenverarbeitungselement ist eine PAE dargestellt, aufge- 
• baut aus einer Hauptdatenverarbeitungseinheit (0501), die typi- 
scherweise' als ALU, RAM, FPGA, . IO-Anschluss atfsgestaltet ist, und 
zwei seitlichen DatentibertragUngseinheiten (0502, 0503), die ih- 
rerseits eine ALU-Struktur und/oder Registerstruktur aufweisen . 
konnen. Desweiteren sind' die Array-internen, zur PAE' gehorenden 
horizontalen Bus s.yst erne .0504a und 0504b dargestellt. 

30 In Figur 5a sind RAM-PAEs (0501a),' die jeweils einen eigenen Spei- 
cher beinhalten gemafi DE 196 54 595 und DE 199 26 538 tiber einen, 
Multiplexer 0511 ai-i einen Cache 0510 gekoppelt. Cachekpntroller 
und Verbindungsbus des' Caches zuirt Hauptspeicher sind nicht darge- 
.stellt.* Die RAM-PAEs weisen bevorzugt einen separaten Datenbus. '> 
5 (0512) mit eigenen Adres s generator en (siehe auch DE 102 06 653) 
auf, urn Daten selbstandig in den Cache ubertragen zu konnen. 

Figur. 5b zeigt eine optimierte Variante. 0501b' sind keine vollwer- 
tigen RAM-PAEs, sondern beinhalten nur die Bussysteme und seitli- . 
40 chfen DatentibertragUngseinheiten (0'502> 0503) . Anstatt des inte- 

grierten Speichers .in 0501 ist lediglich eine Busverbindung (0521) 
' zu -dem Cache ^0520 implementiert . Der Cache ist in mehrere Segmente 
unterteilt 05201, 05202 . . 0520n, die jeweils einem 0501b zuge- 
ordnet sind und fur diesen 0501b bevorzugt exklusiv reservieirt • 
45 sind. Der Cache' stellt somit quasi die Menge aller RAM-PAEs der . 
VPU und den Datencache (0522) der CPU dar. 

Die VPU schreibt ihre internen (Register-) Daten direkt in den 
Cache, bzw. liest diese direkt aus dem Cache. 
50 Veranderte Daten konnen mit "dirty" markiert werden, wqraufhin >der 
" * nicht eingezeichriete Cachekontroller diese automatisch im Haupt- 
speicher .updated. Alte'rnativ stehen Write-Through Verfahren zur 
Verfugung, bei denen veranderte Daten direkt in den Hauptspeicher 
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geschrieben Werden und- das. verwklten d&s, "dirties" uberflussig 
wird. • .■ *• ■ . • 

Die direkte Kopplurig nach Figur 5b ist besonders ; bevorzugt, da .sie 
ausserst f lachenef f izient ist und einfach durch die VPU zU handha-- , 
ben 1st, da die Cachekontroller die Datenubertragung zwischeri " ' * 
Cache - und somit der RAM-PAE - und Hauptspeicher automatisch . 
ubernehmen. . - 

Figur 6 zeigt die Ankopplung einer FPGA-Struktur in einen Daten- 
pfad am Beispiel der VPU Architektur . ' > 

0501 ist der Hauptdateripf ad einer 'PAE. Bevorzugt werden FPGA- , 
Strukturen direkt nach den Eingangsregistern > (vgl . PACT02, PACT22) 
eingefuegt (0611) unci/ ode r direkt vor den Ausgang des Datenp fades . ; 
auf das Bussystem eingefuegt '(0612) - • 
Eine moegliche FPGA-Struktur ist in 0610 dargestellt, der Au-fbau 
ist an PACT 13 Figur 35 angelehnt . . \ 

Die FPGA .Struktur ist. ueber einen Dateneingang (0605) und einen 
Datenausgang ('0606) in die ALU eing'e koppe.lt .' Jewells ^bwechselnd 
sind J 

a) in einer- Zeile (0601) Logikel.emerite angeordriet, die bitweis.e 
logische (AND, OR,. NOT, XOR, etc) Operati'onen .ueber elngehende Da- 
ten durchfuehren. Diese Logikeleraente koennen zusaetzlich lokale 
Busverbindungen aufweisen, ebenso koennen Register zur Datenspei^ 
cherung in den Logikelementen vorgeseh'en sein. , 

b) in einer Zeile (0602) Speicherelemente angeordnet, die bitweisje 
Daten der Logikelemente speichern. Ihre Auf gabe ist bei Bedarf die 
zeitliche Entkopplung also das .zyklische Verhalten eines se- 
quentiellen Programmes darzustellen,- sofern dies Von Compiler- ge- 

' fordert wird.. Mi t anderen Worten wird durch diese .Register stuf en 
das sequentielle Verhalten eines .Programmes, in Form einer Pipeline 
innerhalb .von 0610 nachgebildet . 

• . ■ ■ . * 

Jewells zwisch'en den ' Elementen 0601 und 0602 ■ bef inden sich hori- 
zontal konfigurierbarei. Signalnetzwe'rke, die entsprechend der be- 
" kannten FPGA Netzwerke aufgebaut sind. Diese erlauben- eine hori- 
zo^tale Verschaltung; und Uebertragung von Signalen. 

Es kann zusaetzlich ein vertikales Netzwerk (0604) zur Signaiue- 
bertragung vorgesehen sein, das ebenfalls entsprechend der bekann- / 
ten FPGA Netzwerke auf gebaut aufgebaut ist. Mittels dieses, Net z- 
werks lassen sich Si.gnale an mehreren Zeilen von Elementen 0-601 
und 0602 vorbeiuebertragen. 

Da die Elemente 0601 und 0602 typischerweise bereits eine Anzahl 
verti'kaler Bypass-Signal-Netzwerke aufweiserx ist .0604 nur optional 
und bei einer grossen Anzahl von Zeilen erf.orderlich". / 

Zur Abstimmung der. Zustandsmaschine der PAE auf die jeweils , konfi-- 
gurierte' Tiefe der Pipeline in 0610, also die Anzahl (NRL) der 
- einkonfigurierten Regis terstuf en (0602) zwischen dem Eingarig 
(0605) .und dem Ausgang (0606), ist ein Register 0607 implemen- 
tiert, in welches NRL konfiguriert wird. Anhand dieser Daten 
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stimmt die Zustandsmas chine die, Generierung d^r PAE^ internen Steu- 
erzyklen und i,risbesondere auch def Handshake-Sigiiale (PACT02, 
PACTl'6, PACT18), fuer die. PAE-externen Bussysteme ab . 

Wei'tere moegliche FPGA-Strukturen sind beispielsweise von Xilinx' 
und Altera bekannt, wobei diese bevorzugt eine Registerstruktur 
'nach 0610 aufweisen: 

Figur 7 zeigt mehrere Strategien Code-Kompatibilitaet zwischen un- 
terschiedlich gros.seh VPUs 'zu .erzielen': 

0701 ist eine ALU-PAE- (0702) RAM-PAE- (0703) Anordnung die eine , 
moegliche "kleine" VPU definiert. Es soli im fqlgenden davon aus- 
gegangen werden, dass Code fuer difese Struktur generiert wurde und 
nunmehr auf anderen groesseren VPUs abgearbeitet werden soil. 

Ein erster moeglicher .Ansatz ist den Code fuer die neue Ziel-VPU 
neu zu compilieren. Dies bietet insbesondere. den. Vorteil,. dass 
eventuell in einer heuen Ziel-VPU nicht mehr vorhandene Funktionen 
dadurch nachgebildet werden, dass der Compiler Macros fuer die,se . 
Funktionen instanttiert, die dann die urspruengliche, Funktion 
nachbiiden. Die Nachbildung kann entweder durch die Verwendung , . 
"mehrerer PAEs erf olgen und/oder durch den Einsatz von. Seque.nzern 
wie nachfolgend beschrieben (z.B. fuer Division, Floating-Point, 
koitiplexe Mathematik,. etc)' und beispielsweise i" ?us- PACT02 bekannt. . ' 
:5 : Der klare Nachteil des • Verf ahrens ist, dass die Binaer- • 
Kompatibili'taet verloren geht. 

Die in Figur 7 beschriebenen Verfahren. erhalten- £ie Binaerkode- 

Kompatibilitaet . . „„•''■ 
•Ein erstes einf aches Verfahren sieht das einfuegen von_ 'Wrapper - 
Code vor (0704), der die .Bussysteme zwischen einem kleinen ALU-- ., 
PAE Array und den RAM— PAEs veriaengert, Der Code beinhaltet ledig- 
'lich die' • Kon'f iguration fuer ' die Bussysteme' und wird in den beste- 
hende Biriaer kode , beispielswiese zur Konfigur'ationszeit und/oder 
zur Ladezeit aus ' einem Speicher ei.hgefuegt. 

Der einzige Nachteil des Verfahren ist, dass eine laenger Ueber- 
tragungszeit der Inf ormatlonen ueber. die verlaengerten Bussysteme 
entsteht. Bei' vefgleichsweise niederen Frequenzen kann dies ver- 
nachlaessigt werden (Fig. 7a a) ) .. . . , ■, « 

In Figur 7a b) ' ist eine einf ache optimierte Varxante dargestellt_ 
in welcher die Verlaengerung der Bussysteme ausgeglichen und damit 
weniger f requenzkritisch ist, das sich die Laufzeit fuer das Wrap- 
per-Bussystem gegenueber Fig. 7a a)halbiert. . 

Fuer hoehere Frequenzen ist das' Verfahren nach Fig. 7b einsetzbar, 
bei welcher eine- groes sere VPU ein Superset der .kompatiblen klei- 
nen VPU (0701) darstellt und die kompletten Strukturen von 0701 
repliziert werden. Dadurch ist eine direkte Binaerkompatibilitaet 
einfa'ch gegebe.n. . . 



iO 
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Ein optimales Verfahren sieht nach Figur 7c zusaetzliche Hochge- 
schwindigkeitsbussysteme vor, die eineh Anschluss (0705) an ijede 
PAE Oder jeweils an eine Gruppe von PAEs aufweisen. Derartige Bus- 
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svsteme sind aus anderen Patentanmeldungen der Armaelderin bekannt, 
Sispielswiese aus PACT 07 - Oeber die Anschluesse 0705 werden die . 
Da£en auf ein Hochgeschwindigkeitsbussystem (0706) uebertragen, 
das diesf dann ueber. eine grosse Strecke perfomangeeffizient ue- 
bertraeat Als derartige Hochg.eschwindigkeitsbussysteme koennen - 
. beispiefsweise Etherne?, RapidlO, . USB, AMBA, RAMBUS und andere In- . 
dustriestandards verwendet werden. . 

Der Anschluss an das . Hochgeschwindigkeitsbussystem kann ehtweder ' 
SurcHinen Wrapper wie fuer Fig. 7a. beschrieben eingefuegt war- - 
den? oder archilektonisch bereits fuer 0701 vorgesehen sein In^. . 
diesem Fall wird bei 0701 der Anschluss einfach direkt an die.be- 
nacnbartrzelle weitergeleitet und nicht verwendet. Die Hardware 
abstrahiert das nicht-Vorhandensein des Bussystems . 

im vorstehenden wurde allgemein auf die Koppiung ^cheneine a 
Prozessor und einer VPU bzw., allgemeiner, einer msbesodnere zur 
LaufJeit ganz uhd/oder partiell und/oder schnell, d.h. in wemgen 
Ta^Zvklufn vollstandig rekonf igurierbaren Einheit Bezug genom- , 
Sn Mese Koppiung kann durch die Verwendung bestimmter Betriebs- 
verfahren respektive durch dem Betrieb vorhergehenden geeignete 
KompSierung unterstUtzt und/oder err eicht wejden^ ™ete Kom-_ 
Biiieruna kann dabei wie erforderlich auf nach dem Stand der Teen 
Si oesSLender und/oder auf erf indungsgemafi verbesserte Hardware 
Ruckgriff nehmen. ' 

Parallelisierende Compiler nach dem Stand der Technik verwenden 
fir gewohnlich spezielle Konstrukte, wie Semaphore und/ oder ande- 
re vSrrahren zur Synchronisation. Dabei werden typischerwexse . 
teChnolSSespezifische Verfahren verwendet. Bekanhte Verfahren 
sind Iher nicht' geeignet, urn funktional spezif izierte Architektu- 
' ren ait Sea zugehSrigen Zeitverhalten und imperativ spezif ijxerte 
35 1 klgorithem zu koabinieren, Daher lief em die verwendeten Methoden - 
* hur in Spezialf alien zufriedenstellende Losungen. 

' •Compiler fur rekonf igurierbare Architekturen, insbesondere re Icon- ■ 
Sguriefbare Prozessoren, verwenden fur gewohnlich Makros die - 
40 soeziell' fur die bestimmte rekonf igurierbare Hardware erstellt 

wurdeS; wobei fur die Erstellung . der Makros fUr zumeist^Hardware- 
beschrkbungssprachen (wie z. B. Verilog, VHDL V S y S ^^ e ^- . ' 
det- werden. Diese Makros werden dann von 'erne r gewohnlichen Hoch 
sjrache (z. B. C, C++) aus dem Programaf luss heraus aufgerufen 
45. (instantiiert) . - 

Compiler fur Parallelrechner sind be kann t, die' auf ® in ^.9 r °^" 
.nuTaren Struktur, zumeist. basierend auf kompletten Funkt --en oder 
Threads, Programmteile auf. mehrere Prozessoren abbilden. Weiterhin 
50 sind vektorilierende Compiler bekannt, die erne weitgehende linea 
" re Datenverarbeitung, wie z..B: Berechnungen grofier Ausdrucke in 
• eine vektorisierte Form umwandeln und damit die Berechnung auf su- 
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perskalaren Prozessoren und Vektorprozessoren (z. -B. Pentium, 

Cray) ermoglichen. • » 

Dieses Patent beschreibt daher weiter ein Verfahren zur automati- . 
5 schen Abbildung. von funktional oder imperativ formulierten Rechen- 

vorschriften auf unterschiedliche Zieltechnologieri, insbesondere . 

auf ASICs, rekonf igurierbare Bausteine ( FPGAs , DPGAs, VPUs, Ches- 

s Array, KressArray, Chameleon, etc.; im' folgenden unter dem Be- 
. -griff VPU ztasammengefafit) , sequentielle Prozessoren (CISC-/RISC- 
10 CPUs, DSPs, etc.; im folgenden unter dem Begriff CPU zusainmenge- 

• faBt) und parallele Rechnersysteme (SMP/ MMP, etc.). 

VPUs bestehen grundsatzli'ch aus einer mehrdimensiorialen homogenen 
oder inhomogenen, flachen .oder hierarchischen Anordnung (PA) von 
15 Zellen (PAEs) , die beliebige Funktionen, i..b. logische und/oder 
arithmetische Funktionen (ALU-PAEs) . und/oder Speicher funktionen 
.(RAM- PAEs) und/oder Netzwerkf unktionen ausfiihren konnen.' Den "PAEs 
ist eine Ladeeinheit (CT) ^ugeordnet, die die Eunktion der PAEs 
diirch Konfiguration und gegebenenf alls Rekonf iguration bestimmt . 

20 ' 

Das Verfahren basiert auf einem abstrakten parallelen Maschinenmo- 
dell, das nebendem endlichen Automat en ' auch imperative Problem- 
spezifikationen integriert und eine ef f iziente algorithmische Ab- 
leitung einer Implementierung* auf unterschiedliche Technolqgien 
25 ermoglicht. •■ 

Die Erfindung ist eine Weiterentwicklung der Compilertechnologie 
hach DE 101 39 170.6, welche besonders die enge XPP-Anbindung an 
einen Processor innerhalb dessen Datenpf aden beschreibt und einen 
30 dafiir besonders geeigneten Compiler offenbart, der zudem auch XPP 
Standalonesysteme ohne enge Prozessorkopplurig verwendet werden. 

Zumindest folgende Cbmpilerklassen sind nach dem Stand der Technik 
bekannt: Klassische Compiler, die haufig Stack-Maschinen-Code ge- 
35 nerieren und fur sehr einfache Prozessoren geeignet waren, die im 
Wesentlichen als normale Sequenzer ausgestaltet sind. (vgl. 
ISI.Wirth, Compilerbau, Teubner Verlag) 

Vektorisierende Compiler* bauen weitgehend linearen Code, der auf 
40 spezielle Vektorrechner oder stark gepipelinede Prozessoren abge- 1 
stimmt ist. Ursprtinglich waren diese Compiler fur Vektorrechner 
wie CRAY verftigbar. Moderne Prozessoren wie Pentium benotigen auf- 
grund der langen Pipelinestruktur ahnliche Verfahren. Da die ein- 
zelneh Rechenschritte vektorisiert (gepipelined) ablaufen, ist' der 
45 Code sehr viel effizienter. Allerdings. bereitet der bedingte 

Sprung Probleme fttr die Pipeline. Daher ist eine Sprungvorhersage 
sinnvoll, die ein Sprungziel annimmt. Ist die Annahme falsch, muss 
jedoch die gesamte Verarbeitungspipeline geloscht werden. Mit an- 
deren Worten ist jeder Sprung fiir diese Compiler problematisch, 
50 eine Parallelverarbeitung im- eigentlichen Sinn ist- nicht gegeben. 

• Sprungvorhersagen und ahnliche Mechanismen erfordern einen erheb- 
lichen Zusatzaufwand an Hardware. 
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• Grob'granulare parallele Compiler existieren 1 im eigentlichen Sinne 
kaum, die Parallelitat wird typischerweise durch den Programmierer ' 
ojder das Betriebssystem 'markiert und verwaltet, also beipieJLsyeise 
b.ei* MMP-Computersystemen wie verschiedene IBM Architekturen,- ASCII 
5 Red etc. zumeist auf Thread-Ebene durchgef iihrt . Ein Thread ist ein 
weitgehend unabhangiger Programmblock oder gar ein anderes Pro- 
.gramm.. Threads sind daher grobgranular einfach zu parall.elisieren. 
Die Synchronisation und Datenkonsistenz ist. vom Prograitimierer bzw.. 
.dem Betriebssystem sicherzustellen. Dies ist aufwendig' zu program- 
10 ■ mieren und erforciert einen wesentlichen Anteil der Rechenleistung 
eines Parallelrechners'. Zudenr ist durch diese grobe. Parallelisie- 
rung nur ein Bructiteil der eigentlich moglichen Parallelitat tat- • 
sachtlich nutzbar. . 

15 Feingranulare parallele (z. B. VLIW) Compiler versuchen, die Par- 
allelitat feingranular in VLIW-Rechenwerke. abzubilden, die mehrere 
Rechenoperationen in einem" Takt parallel ausfiihren konnen, aber 
einen gemeinsamen Registersatz besitzen. Ein wesentliches Problem 
stellt dieser limitierte Registersatz dar, , da er .die Daten fiir 
20 samtliche Rechenoperationen bereitstellen- muss . Zudem erschweren 
Datenabhangigkeiten und inkonsistente Lese/Schreiboperationen 
(LOAD/STORE) die Parallelisierung . , 

Rekorif igurierbare Pro,zessoren weisen eine' grofie Anzahl an unabhan- 
25 gigen Rechenwerken auf. Diese 'sind nicht durch einen .gemeinisamen 
Registersatz, sondern durch Busse miteinander verbunden. Dadurch 
lassen sich einerseits leicht Vektorrechenwerke aufbauen, anderer- 
seits konnen auch einfach parallele Operationen durchgefiihrt wer- 
den. Durch die Busyerbindurigen werden entgegen der. herkommlichen 
30 Registerkonzepte Datenabhangagkeiten aufgelost. 

Erfindungsgemali wurde gemafl einem ersten wesentlichen Aspekt er- 
kannt, dali fur einen Compiler fur rekonf igurierbare Prozessoren' 
' die Konzepte von vektorisierenden Compilern und parallelisierenden 
35 (z. B. VLIW) Compilern zugleich. anzuwenden sind und somit auf 
f eingranularer Ebene zu vektorlsieren und parallelisieren ist. 

Ein wesentlicher Vorteil besteht darin, dass der Compiler nicht 
auf eine. f est vorgegebene Hardwarestruktur abbilden muss, sondern 
40 die Hardwarestruktur so konfiguriert wird, dass sie optimal fiir 
die Abbildung des jeweiligen compi.lierten Algorithmus geeignet 
ist./ - 

45 Beschreibung der erfindungsgemaBen Kompiller- -und Datenverarbei- 
tungsvorrichtungsbetriebsverf aliren 

Moderne Prozessoren weisen zumeist einen Satz an benutzerdef inier- 
baren Befehlen (UDI) auf, die fur Hardw^reerweiterungen und/oder- * 
50 spezielle Coprozessoren und Beschl.eunigern zur Verfugung stehen. 
Sofern UDI s ' nicht , zur Verfugung stehen, weisen' Prozessoren zumin- 
dest fre'ie, bislang noch unbenutzte Befehle und/oder Spezialbef eh- 
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le fur Coprozes'soren . auf - der Einf achheit halber ' werden alle die- 
se Be'fehle. nachfo,lgend unter dem Begriff UDI zusammengef asst . 

Eine Menge dieser UDIs konnen nungemafi einem Aspekt der Erfindung 
verwendet werden, urn eine als Datenpfad in' den Processor eingekop-. 
pelte VPU anzusteuern. Beispielsweise kann .durch UDIs das Laden 
und/oder • Loscheh und/oder Starten von- Konf igurationen ausgelost 
werden, und' zwar. kann eine- w bestimmte UDI auf .eine- konstant* biei- 
bende und/oder wechselnde Konf iguration Bezug nehmen. 

t ' 1 « ; • , 



Bevorzugt. werden Konf igurationen in einen .Konf igurations-cache, 
der lokal der VPU zugeordnet i.st',' yorg:eladen und/oder in Konfigu- 
' rationsstacks nach DE 196 51 .075.9-53, DE ,197 04 728.9 und 'DE 102 
12 621.6-53 vorgeladen, aus denen sie zur Lauf zeit bei Auftreten 
15 einer eine «Konf iguration startende UDI schnell korifiguriert und 

ausgeftihrt werdeia konnen. Das Konf igurationsyorladen kann in einen 
mehreren PAEs oderPAs geitieinsamen. Korif igurationsmanager und/oder 
•in einen lokalen Konf igurationsspeicher an und/oder in einer PAE 
e'rfolgen, wobei dann nur noch die Aktivierung veranlafit werden 
20 ' muli , , , 

' Bevorzugt wird ein Sat.z an Konf igurationen vo.rgeladen. Allgemein 

entspricht bevorzugt je eine Konf iguration einer Lade-^UDI. Mit an- 
. deren Worten ref ererizieren die Lade-UDIs auf *}e eine Konfigurati- - 
25 on. Zugleich ist es auch moglich, mit einer Lade-UDI auf eine kom- 
plexe Konf igurationsanordnung Bezug zu nehmen, bei der -etwa sehr 
umfangreiche Funktionen, die ein mehr'faches Umlanden des Arrays 
wahrend der Ausfuhrung erford'ern, eine - ailch wiederholte' - Wave- 
Rekonf iguration usw. durch eine einzelne UDI ref erenzierbar sind. 

30 

Wahrerid des Betriebes .konnen Konf igurationen durch. andere ausge- 
wechselt werden und die Lade-UDIs . dementsprechend umref ereriziert 
werden: Eine bestiramte Lade-UDI kann also zuein^m ersten Zeit- 
punkt auf eine erste Konf iguration ref erenzieren und bei' einem' 
35 zweiten Zeitpunkt auf eine mittlerweile neu geladene zvfeite Konfi- 
guration ref erenzieren. Es kann dies dadurch geschehen, daft etwa 
ein Eintrag in einer Referenzliste, auf ■ die gemafi UDI zugegriffen 
werden soli/ geandert wird. 

40 Im Ra,hmen d.er Erfindung wird fur den Betrieb der VPU ein 

LOAD/ STORE Mas chinenmode 11 zugrundegelegt , wie' es beispielsweise 
von RISC-Prozessoren bekanntist. Jede Konf iguration wird als ein 
Befehl verstanden. Separat zu defi; datenverarbeitenden Konfigura- 
tionen sind die -LOAD und STORE Konf igurationen. \ 

Ein Datenverarbeitungsablauf (LQAD-PROCESS-STORE). findet dement- 
sprechend. z. Bl wie foigt. statt: . 



1. LOAD-Konf iguration , ■ 

50. Laden der' Da ten aus z. B. einem externen Speicher, einem ROM eines 
' ' SOCs, in dem die Gesamtanordnung integriert ist, urid/oder der Pe- 
ripherie in die interne Speicherbank (RAM- PAE, siehe DE 19*6 54 
' ,846.2-53 , DE 100 50 442.6). Die Konf igura-tion umfafit erforderli- 
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chenfalls Adressgeneratoren und/oder Zugrif f ssteuerungeri, vim Daten 
von prozessorexternen Speichern und/oder . Peripherie zu.lesen und 
in -die RAM-PAEs zu schreiben. Die RAM-PAEs konnen. fur den Betrieb 
als mehrdimensionale Datenregister (z. B.. Vektorregister) . verstan- 

den werden. t 
2'. - (n-1) Datenverarbeitungs-Korif igurationen ' 
Die datenverarbeitenden Konf igurationen werden sequentiel^.- nach- 
eiiiander in. das PA konf iguriert : Die Datenverarbeitung finde't- ent- 
spechend eines LOAD/STORE (RISC) Processors bevorzugt ausschliess- 
lich zwischen den RAM-PAEs - die als mehrdimensionale Datenregi- 
ster. verwend'et werden - statt . 

ri. STORE-Kohfiguration ' 
Schreiben der Daten aUs den internet Speicherbanken (RAM-PAEs) an 
den externen Speicher bzw. die Peripherie. Die. Konf iguration um- 
. falit Adressgeneratoren und/oder Zugrif fssteuerungen, ' urn Daten von 
den RAM-PAEs an. die 'prozessorexternen Speicher uhd/oder Peripherie . 
zu schreiben. 

Fuer die Grundlagen der LiDAD/ STORE . Operatibnen sei auf PACT11 ver- 
wiesen. • 

Die Adressgenerierfunktionen der LOAD/STORE-Konf igurationen sind 
derart optimiert," dass beispielsweise bei eiri^r nicht li-nearen ZU- 
griffsfolge d<*s Algorithirius auf ext'erne Daten die entsprechenden 
Adresspatteirn von den Konf igurationen generiert werden. Die Analy- 
se- der Algorithmeri und das Erstellen der Adresageneratoren ftir ^ 
. LOAD/STORE .erfolgt durch den Compiler. 

Dieses Arbeitsprinzip kann durch die Abarbeitung von Schleifen ^ 
einfach verdeutlicht . werden. Beispielhaft soil von einer VPU.mit • 
256 Eintraege tiefen RAM-PAEs ausgegangen werden: 



Beispiel a) : • 

for i := 1 to 10000 t 

1 . LOAD-PROCESS-STORE Zyklus 

2. LOAD-PROCESS-STORE Zyklus 

3. LOAD-PROCE.S'S-STORE Zyklus 



Lade & verarbeite 1 . . - 256 
Lade & verarbeite 257 . . . 512 
Lade* & verarbeite • 513 T - . . 7.68 



Beispiel b) : , 
for i ':= 1 to 1000 ' 
'for j := 1 to 256 

1. LOAD-PROCESS-STORE Zyklus 

i ■-■ 1; j - 1 - - - 256 

2. LOAD-PROCESS-STORE Zyklus 

i »■ 2; j - 1 • • 256 

3. LOAD-PROCESS-STORE Zyklus 

i - 3; j = 1 - . . 256 



: Lade & -verarbeite 
: Lade & verarbeite 
: Lade & verarbeite 



Beispiel c) : 
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• for i := 1 to 1000. 

• for j :« .1. to 512- . /■ 

1. ■ LOAD-PROdESS-STORE Zyklus : Lade & verarbeite 
5 i = .1; . j = 1 . . . 256 

2. LOAD-PROCESS-STORE Zyklus : Lade & verarbeite 

i = 1; j = 257 . . . 512 " 
;3. LOAD-PROCESS-STORE Zyklus : Lade & verarbeite 
i = 2; j ■ = 1 . . 256 

10 . . . 

Von besonderem Vorteil ist> wenn jede Konf iguration als atomar - 
also, nicht unterbrechbar - betrachtet Wird. Dadurch wird das Pro- 
blem gelost, dass bei einer Unterbrechung die anternen' Daten des 
15 PAs und der interne Status gesichert werden mussen. Wahrend der 
Ausftthruhg einer Konf iguration wird der jeweilige Status zusammen 
mit den Daten in die RAM-PAEs geschrieben. 

Der Nachteil des Verfahren. ist, dass zuhachst keine Aussage iiber 
20 das Lauf zeityerhalten einer Konf iguration getroffen werden kann. 

Dadurch entstehen- jedoch Nachteile beziiglich der Echtzeitf ahigkeit 
und des Taskwechselverhaltens . 

Daher wird als erf indungsgemaii bevorzugt vorg«Tschlagen, die Lauf- 
25 zeit jeder "Konf iguration auf elne bestimmte Maximalanzahl von Tak^ 
ten zu beschranken. Die Lauf zeitbekchr&nkung ist kein wesentlicher 
Nachteil, da typisch eine Obergrenze' bereits durch die Grofle .der 
RAM-PAEs und der damit verbundenen Datenmenge f estgeiegt . ist . Sin- 
nigerweise korrespondiert die Grofie der RAM-PAEs mit der- Maxima-- 
30» larizahl von Datenverarbeitungstakten einer Konf iguration, womit 
eine typische Konf iguration auf einige 100 bis 1000 Takte be- 
schrankt wird. Durch diese Beschrankung konnen Multithrea- 
ding/Hyperthreading-, sowie Realtime-Verf ahren zusammen mit einer 
VPU implementiert sein. 

35 : < 

Die Laufzeit von Konf igurationen wird bevorzugt tiber einen (mit 
dem Takt oder einem anderen Signal mitlauf enden) Mitlau£zahler 
b'zw. Watchdog, z. B. einen Zahler uberwacht. Bei eirier Zeituber- 
schreltung lost der Watchdog einen Interrupt und/;oder Trap aus, 
40 . der ahnlich eines ^illegal opcode" Traps von Prozessoren verstan- 
den und behandelt werden kann.. 

Eine Einschrankyng kann zur Reduzierung von Rekonf igurationsvor- 
gangen und zur Perf ormance-Steigerung alternativ eingefiihrt wer- 
45 den: 

Laufende Konf igurationen konnen den Watchdog retriggern und somit 
langer ablauf en, ohne gewechselt werden zu mtissen. Ein Retrigger 
ist nur dann zulassig, wenn der Algorithmus einen "sicheren" Zu- 
stand (Synchronisationszeitpunkt) erreicht hat, in dem alle Daten 
50 .und Zustande in die RAM-PAEs geschrieben sind und eine Unterbre- 
chung algorithmisch zulassig ist. Der Nachteil dieser Erweiterung 
ist, dass eine Konf iguration im Rahmen .ihrer Datenverarbeitung in 
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einen^ Deadlock laufen k5nnte, jedoch* den Watchdog weiterhin'or- 
'. dentlich retriggert und somit die Konfiguratiori nicht . terminiert . 

Eine Blockade der VPU-Ressource durch eine derartige Zombie- '■ 
5 Konf iguration kann dadurch verhindert werden, ■ dass das Retriggern 
des .Watchdog .durch einen Taskwechsel unterbunden werden kann und 
somit die Konf iguration zum nachstfolgehden Synchronisations zeit- 
punkt Oder nach einer vorgegebenen Anzahl von Synchronisations- 
zeitpunkten gewechselt wird, Dadurch terminiert zwar der den Zom-. 
10 bie aufweisende Task nicht mehr, das Gesamt system lauft jedoch or-, 
dentlich weiter. 

Als eine weitere Methode .kann optional Multithreading und/' oder 
Hyperthreading fur das Maschinenmodell bzw. den Prozessor einge— 
15 fiihrt werden. Samtliche VPU-Routinen, also deren Konf igurationen, 
werden dann bevorzugt als eigener Thread betrachtet. Da die VPU 
als Reche.nwerk in den Prozessor eingekoppelt ist, kann sie als ei- 
ne Ressource fur die Threads betrachtet werden. Der 'nach den Stand 

• der Technik fur Multithreading implementierte Scheduler (siehe 

20 auch P 42 21 278.2-09) verteilt automatisch fur VPUs programmierte 
Threads (VPU-Threads) auf diese. Mit anderen Worten verteilt der 

• Scheduler die unterschiedlichen Tasks automatisch 'innerhalb des 
. Prozessors . 

25 Dadurch entsteht eine weitere 'Ebene an Parallelismus . Sowohl reine 
. Prozessor-Threads als auch VPU-Thfeads werden parallel verarbeitet 
und kon'nen automatisch ohne besondere Zusatzmafinahmen durch den 
Scheduler verwaltet werden'.. 

30 Besonders leistungsf ahig ist das Verfahren, venn der Compiler wie 
bevorzugt und regelmaiiig moglich Programme in mehrere parallel ab ; - 
arbeitbare Threads zerlegt und dabei samtliche . VPU-Programmab.- 
schnitte in einzelne VPU-Threads aufteilt. 

35' Um einen schnellen Taskwechsel/ insbesondere auch Realtime-Systeme 
zu unterstutzen, , konnen mehrere VPU Datenpfade, die jeweils als ' 
eigenstandige Ressource betrachtet .werden, implementiert sein. 
Gleichz^itig erhoht sich dadurch auch der Grad an Parallelitat, .da 
mehrere VPU-Datenpf ade parallel nutzbar . sind. 
40 

Um Realtime-Systeme besonders zu" unterstlitzen, ' konnen bestiitimte 
VPU-Ressource . fur ' interrupt-Routinen reserviert sein, sodass fur 
eine Antwort auf einen eintref f enden Interrupt nicht bis zur Ter- 
minierung der atomaren, nicht unterbrechbaren Konf igurationen ge- 

45 wartet werden muss. Alternativ dazu konnen VPU-Ressourcen ftir In- 
terrupt-Routinen gesperrt^ sein, d. h. keine Interruptroutine kann 
eine VPU-Ressource verwenden und/oder einen entsprechenden Thread 
beinhalten. Damit sind ebenfalls schnelle Interrupt Antwort zeiten. 
. gegeben. Da typischerweise- innerhalb von Interruptroutinen keine 

50 oder nur wenige VPU-perf ormante Algorithmen vorkommen, ist dieses 
Verfahren bevorzugt. Sofern der Interrupt zu einem Taskwechsel 
fiihrt, kann wahrenddessen die VPU-Ressource terminiert werden; im 
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Rahmen-des Taskwechsels steht gewohnlicherweise ausreichend Zeit 
zur Verfiigung. 

Ein bei Taskwechselri auf tretendes Problem kann sein, dass der zu- 
vor beschriebene LOAD- PROCESS -STORE -Zyklus- unterbrochen werden 
■muss; ohne dass samt'liche Daten und/oder Statusinf ormationen aus 
den RAM-PAEs in die- externen RAMs und/oder Per'ipheriegerate ge- 
schrieben wurdeh/ * 



Entsprechend- gewtfhnlicher Prozessoren (z. B. ^IISC LOAD/STORE Ma- 
schi'nen)' wird nunmehr eine Konf iguration PUSH eingefuhrt, die, z. 
B. bei einem Taskwechsel, .zwischen den Kohf igurationen des LOAD- 
PROCESS-STORE Zyklus eingef.ttgt werden kann. PUSH- sichert die' in- - 
ternen Speicherinhalte der RAM-PAEs nach extern, z. B .' auf einen 
15 Stack; extern bedeutet hier z. B. extern zum PA oder einem PA-. ' 
Teil, kann aber auch auf Peripherie usw, Bezug nehmen. Insoweit 
entspricht PUSH somit ih seiner Grundlage dem Verfahren klassi- 
scher Prozessoren. • Nach Ausfuhrung der- PUSH Operation kann der 
Task gewechselt werden, d.hw der aktuelle LOAD-PROCESS-STORE - 
20 Zyklus kann abgebrochen werden und 'ein LOAD-PROCESS-STORE-Zyklus 
des nachsten Tasks kann ausgefiihrt .werden. Der abgebrochene LOAD- 
PROCESS-STORE Zyklus wird bei- einem nachfolgenden Taskwechsel auf 
den entsprechenden Task an der Konf iguration (KATS) , die nach der 
letzten durchgefuhrte'ii Konf iguration folgt, wieder aufgesetzt. Da- 
25 zu wird vor dem Konf igurieren von KATS eine , POP* Konf iguration 

durchgefuhrt, die wiederum entsprechend der Verfahren bei bekann- 
ten Prozessoren die Dateh fur die RAM-PAEs aus den externen Spei- 
' chern ladt, z. B. dem. Stack. ... 

30 Als besonders leistungsf ahig- wurde hierftir eine erweiterte Version 
der RAM-PAEs nach DE 196 54 595.1-53 und DE 199 26 538.0 erkannt, 
bei welcher die RAM-PAEs direkten Zugriff auf einen Cache haben 
(DE 199 26 538.0) (Fall A) oder als besondere Slices innerhalb ■ ei- 
ne s Caches betraphtet werden bzw. direkt gecached werden konnen 
35 (DE 196 54 595.1-53) (Fall B) . 

Durch den direkten Zugriff der RAM-PAEs auf einen Cache oder* die 
direkte Implementierung der RAM-PAEs in einem Cache konnen die 
Speicherinhalte bei einem Taskwechsel schnell und einfach ausge- 
• tauscht werden. 

40 

Fall A: Die RAM-PAE Inhalte werden Uber einen beyorzugt separaten 
und eigenstandigen Bus in* den Cache, geschrieben und aus diesem neu 
geladen. Die Verwaltung des Caches- iibernimmt ein Cachekontroller 
nach dem Stand der, Technik. Dabei miissen nur die RAM-PAEs in den 
45 Cache geschrieben werden-, die gegenuber dem ursprunglichen Inhalt 
verandert wurden. Dazu kann ein "dirty" Flag fur die RAM-PAEs ein- 
geftihrt werden, welches anzeigt, ob ein RAM-PAE beschirieben und 
verandert wtirde. Dafi dafiir entsprechende Hardware-Mittel zur Im- 
plementierung "vorgesehen werden Jconnen, sei erwShnt. " 



Fall B: Die RAM-PAEs liegen direkt im Cache und sind dort als Son- 
derspeicherstellen markiert, die nicht von den normalen Daten- 
transfers zwischen -Prozessor und Speicher beeinflusst werden. .Bei 
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einem Taskwechsel werden andere Cache Abschnitte refe'renziert. ■ , 
Veranderte RAM-PAEs konrien mit dirty markiert we'rden: Die Verwal-. 
tung des Caches liegt beim Cachekohtroller . 

5 Bei Anwendung der Falle A und/oder B kann ein Write-Through- '. 
.. Verfahren applikationsabhangig erhebliche Geschwindigkeitsyorteile 
erzieien. Dabei werden die Daten der RAM-PAEs und/oder Caches bei 
jedeiti Schreibzugrif f durch die VPU direkt an den externen. Speicher. 
durchgeschrieben. Damit bleibt der RAM-PAE und/oder Cacheinhait 
10' gegenuber dem externen Speicher (und/pder Cache) zu jedem Zeit- 
"• punkt sauber. Die Notwendigkeit bei einem Taskwechsel die RAM-PAEs . 
.' gegenuber dem >_ Cache bzw. den Cache gegentiber dem externen Speicher 
upzudaten, .entfalit. 

15. •• Onter ' Verwendiing derartiger Verfahren konnen POSH und POP Konfigu- 
' ratio ( ne'n.' entf alien, da die Datentransf er's fur die Kontext-Switches 
von der Hardware ausgefuhrt werden. 

Durch die Beschrankung der iaufzeit von Konf igurationen und der 
20 Unterstutzung- schheller Taskwechsel wird die' Realtime-Fahigkeit 
eines VPU-gestutzteh Prozessors sichergestellt . 

( Der LOAD-PROZE^S-STORE-Zyklus erlaubt eine besonders effiziente- ,. 
• Debugging-Methode des Programmcodes nach DE 101 42 904.5. Wenn.wie 
25 bevorzugt jede Konf iguratiori ais atomar, und somit ununterbrechbar 
betrachtet wird, liegen die fur das Debugging relevanten Daten 
und/bder Zustande grundsatzlich nach Beendigung der Verarbeitung ■ • 
einer Konf iguration in den RAM-PAEs •• Der Debugger muss somat le-. 
diglich auf die RAM-PAEs zugreifen, um.alle wesentlichen Daten 
30 , und/oder Zustande zu erhalten. 

Damit ist die Granularitat einer 'Konf iguration hinreichend debug- . ■ 
bar • So fern Details tiber die- abgearbeiteten Konf igurationen debug- 
ged werden miissen, wird nach DE 101 42 904.5. ein Mixed Mode Debug- 
ger verwendet, bei welchem die RAM-PAE-Inhalte vor und nach emer 
Konfiguration .gelesen werden und' die Konf iguration selbst mittels 
eines Simulators, der die Abarbeitung der Konfiguration simuliert, 
uberpriift wird. . 

40 ■ Sofern die Simulationsergebnisse nicht 'mit den Speicherinhalten 
der RAM-PAEs nach Ablauf der auf der VP'U verarbeiteten Konfxgura- 
tion ubereinstimmen, ist der Simulator nicht mit der Hardware kon- 
sistent und es liegt entweder ein Hardware- oder ■ Simulatorfehler # . 
vor, der sodann von dem Hersteller der Hardware bzw. der Sxmulati- 

45- onssoftware uberprtift werden muss. 

Es' soil besonders darauf hingewiesen werden,. dass die Begrenzung 
der Laufzeit einer Konfiguration auf eine maximale Anzahl an Zy- 
klusn die Anwendung von Mixed-Mode-Debuggern besonders begunstxgt, 
50 da somit • nur eine relativ geringe Anzahl von Zyklusn simuliert 

werden muss . 
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Durch das be'schriebene Verfahfen der atomaren Konf igurationen wird 
aiich das Setzen von Breakpoints vereinf acht, da das Uberwachen der 
' Dateri nach dem 'Auftreten einer Breakpoint-Bedingung ?iur an den .. 

RAM-PAEs .notwendig ist, so dass nur .diese mit Bfeakpoint-Registern . 
'und -Vergleichern ausgestattef werden miissen. , 

In einer erweiterten Hardware-Variante konnen die PAEs .Sequenzer 
• nach DE 196 51 075.9-53. (Fig. 17, 18,' 21) und/oder DE 199 26 538.0... 
aufweisen', -wobei beispielsweise Eintrage des Konf igurationss tacks ■ 
(vgi. DE .197 04 728.9, DE 100 28 397.7, DE 102 12 621.6-53) als 
Codespeiisher- far einen Sequencer verwehdet werden. • 

Es wurde erkannt) dass deraxtige Sequenzer zumeist sehr. .schwer • 
durch Compiler beherrschbar und nutzbar sind. Daher werden bevor- 
zugt Pseudocodes fur diese Sequenzer zur Verfugung gestellt, auf 
welche Compiler-g'enerierte Assemblerbef ehle abgebildet werden. 
Beispielsweise ist es inef f izient/ Opcodes fur Division, Wurzel,. 
P.otenzen, geometicische Operationen, Komplexe Mathematik, Fliess- 
komma-Befehle' etc. in Hardware zur Verfugung zu stellen. Daher' 
0 werden derartige Befehle als mehrzyklische Sequenzer-Routrnen lm- 
,piementiert, wobei der Compiler be'i Bedart derartige Makros durch.. 
den Assembler instantiiert . 

Besonders interessant sind die Sequenzer beispielsweise far Appli- 
»5 kationen, in welchen haufig Matrix-Berechnungen durchgef uhrt wer- 
' den muss en. In diesen Fallen la'ssen sich komplette Matrix- ■ 
Operationen wie beispielsweise eine 2x2 Matrixmultiplikation ais- . 
. Makros zusammenf assen und fur die Sequenzer zur Verfugung stellen. 

30 Sofern in einer erweiterten Architekturvariante FPGA-Einheiten in 
den ALD-PAEs implementiert sind, weistder Compiler folgende Opti- 
on auf : 

Bei Auftreten von logischen Operationen inne.rhalb des vom Compiler 
zu ueber set zenden ' Programmes, z.B. &,!,»,« etc. ■ generiert der 
5 Compiler eine der- Operation entspfechende Logikfunktion fuer die 
FPGA-Einheiten innerhal'b der ALU-PAE." Insoweit .der Compiler sicher 
feststellen kann,' dass die Funktion keine zeitlichen Abhaenigkei- 
ten gegenueber ihren Eingangs- und Ausgangsdaten aufweist, kann 
auf das Einfuegen von Registerstufen nach der Funktion. verzichtet 

40 werden. > ■ 

1st' eine zeitliche anabhaengigkeit nicht sicher feststellbar, wer- 
den nach der Funktion in .der FPGA-Einheit Register hinzukonf igu- 
riert, die eine Verzoegerung urn einen Takt und somit die Synchro- 
nisation bewirken. • .. „ : , 
45 Bei Einfuegen von Registern wird bei der Konf iguration der gene- 
• rierten konf iguration auf die VPU wird die Anzahl der emgefuegten 
Registerstufen per FPGA-Einheit in ein Verzoegerungsregister ge- 
schrieben, das die Zus'tandsmas chine der PAE ansteuert. Dadurch . 
,kann die Zustandsmaschine das Verwalten der Handshakeprotokolle an 
50 die zusaetzlich auftretende Pipelinestufe anpassen. ^ • 
" Nach eine Reset oder einem Rekonf igurationss ignal (z.B. Reconfig) 
(siehe PACT08, PACT16) werden die FPGA-Einheiten neutral .geschal- . 
tet, d.h. sie lassen die Eingangsdaten ohne Modification an den 
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Ausgang durch.' Somit -benoetigen unbenutzte FPGA-Einb.eiten keiner- 
lei Konfigurat ions information. . 

' Samtliche erwShnten PACT Patentanmeldungen sind zu Of f enbarungs- 
zwecken vollumf anglich eingegliedert- . • 

Beliebige weitere Ausgestaltungen und Kombinationen der "lauter- 
ten Erfindungen sind moglich und einem Fachmann of f^chtHch. . 
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Titel: Prpzessorkoppluiig . 

Patentanspruche ' 

lo' 1 Verfahren zum Betrieb und/oder der Vorbereitung des Betf iebs 
. " eines herkommlichen, insbesondere seguenzielle.n Prozessors und 
eines rekbnf igurierbaren Feldes von Datenverarbeitungseinhei- 
'ten, insbesondere eines lauf zeitrekonf igurierbaren Feldes von 
Datenverarbeitungseinheiten, 

15 worin • . . 

der herkommliche Prbzessor in einem Satz aus emer Vielzanl 
von vordefinierten und nichtvordef inierten Befehle definierte 

Befehle abarbeitet _ 
und Datenverarbeitungseinheitenfeldrekonfigurationen auslost, 

20 dadurch gekennzeichnet dali 

die Datenverarbeitungseinheitenfeldrekonfigurationen bzw. Da- 

tenverarbeitungseinheitenfeldteil- und/oder. -. 

vorladerekonfigurationeii im Ansprechen auf das Auftreten von 

dem Prozessor nicht vordefinierten Befehlen durch diesen aus- 

25 gelSst und/oder bewirkt werden. 

2 Verfahren nach dem vorhergehenden Anspruch, dadurch gekenn- , 
■ *• zeichnet dafi mehrere dem Prozessor nicht vordefinierte, son- 

dern vom Benutzer definierte Befehle vorgesehen sind, wobei 
30 • auf unterschiedliche vom Benutzer definierte Befehle unter- 
schiedliche Datenverarbeitungseinheitenf eldrekonf iguratxonen 
bewirkt werden. 

3 Verfahren nach einem der vorhergehenden Anspruche, dadurch ge- 
kennzeichnet ; dafi eine Ref erenziefung auf Datenverarbeitungs- 
einheitenf eldrekonf igurationen vorgesehen wird, urn die Verwal- 
tung der Datenverarbeitungseinheitenf eldrekonf igurationen zu 
unterstutz'en und insbesondere den Wechsel der Zuordnung von zu 
ladenden Konf igurationen zu vom Benutzer def inierten Befehle 

40 zu erleichtern. 

4 • Verfahren nach einem der vorhergehenden Anspruche., dadurch ge- 

kennzeichnet dafi mehrere Konfigurationen simultan geladen, 
insbesondere fur eine. auch nur evtl. moglich.e und/oder erwar- 
45 ' tete Ausftihrung, vorgeladen werden. 

5 Verfahren nach einem def vorhergehenden Anspruche, dadurch ge- 
' kennzeichnet, dali im Befehlssatz der CPU und/oder des herkSmm- 

lichen, insbesondere sequenziellen Prozessors load/store- 
50 Instruktionen mit integrierter Status abf rage (load_rdy, 

store ack) vorgesehen werden, die insbesondere zur Steuerung 
von Schreib- und/oder Leseoperationen verwendet- werden. 
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6. - Verfahren 'nach einem der yorhergehenden Arisprtiche,. dadurch- ge- 
kennzeichnet daft, auf der VPU aiiszufiihrenden Konf igurationen 
durch einen' Instruktionsdekoder (0105) der CPU unci/oder des 
anderen herkommlicheri, insbesondere sequjenziellen Prozessors 

5 selektiert werden, wobei dieser Instruktionsdekoder bestimmte, 

far die VPU bestimmte Instruktionen erkennt und bevorzugt, sp- 
fern dort vorhanden, deren Konf igufationseinheit ■ (0106) derart 
ansteuert, dass diese die entsprechenden Konf igurationen aus ; 
einem der CT zugeordneten Speicher .(0107) , der insbesondere 

10 mit der CPU ge shared werdeh .oder derselbe wie der Arbeits spei- 

cher der CPU sein kann, in konf igurierba?:e Datenverarbeitungs- 
' einheitfeld, ' das insbesondere als Array aus PAEs (PA, 0108) 
gebildet ist, ladt. - 

15 7 . Verfahren insbesondere nach dem vorhergehenden Anspruch zum 

Betrieb und/oder der Vorberefitung des Betriebs eines herkomm- 

, lichen, insbesondere sequenziellen Prozessors und eines 'rekon- 

figurierbaren Feldes yon Datenverarbeitungseinheiten, insbe- 
sondere eines lauf zeitrekonf igurierbaren Feldes von Datenver- 

20 arbeitungseinheiten, 

wbrin der herk$mmliche, insbesondere sequenziellen Prozessor 
zumindest zeitweise in einem Multithreadingbetrieb betrieben 
wird. * • 

25 8 - Verfahren nach einem der vorhergehenden Anspruche, dadurch ge- ■ 
kennzeichnet, daft zur Betriebsvorbereitung insbesondere, durch 
einen Compiler eine Anwendung in eine Vielzahl Threads zeflegt 
wird. ' % 

30 9. Verfahren nach einem der vorhergehenden Anspruche, dadurch ge- 
kennzeichnet, da'li fur den herkSmmlichen, insbesondere sequen- 
- tiellen Prozessors Interruptroutinen insbesondere frei von 
Code flir das rekonf igurierbare' Feld von Datenverarbeitungsein- 
heiten vorgesehen -wird. 

10... Verfahren na'ch einem der vorhergehenden Anspruche, dadurch ge- . 
kennzeichnet, daii mehrere VPU ■ Datenpf ade implementiert werden, 
die jeweils als eigenstandige Ressource angesprochen werden 
. und/oder .parallel genutzt werden. 

40 • 

11. Verfahren nach einem der vorhergehenden Anspruche,- worih auf 
dem rekonfigurierbaren Feld von Datenverarbeitungseinheiten 
schwer parallelisierbare Operationen, insbesondere die Bestim- 
. mung von Divisionen, Wurzeln, Potenzen, geometrischen Opera-' 
45 tionen," komplexiriathematische Operation und/oder Fliesskomma- 

Berechnungen verlagert werden- und diese in .form mehrzyklischer 
Sequenzer-Routinen auf dem rekonfigurierbaren Feld von Daten- ' 
verarbeitungseinheiten implementiert werden, insbesondere 
durch Ins tantiie rung von Makros . 
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' ■ • ** ■ 

12. Verfahren nach einem der vorhergehenden Anspruche, dadurch ge- 
kennzeichnet, daft die Datenzugrif f e vor dem Betrieb insbeson- 
dere bei der Compilierung derart umsortiert werden, . dass eine 
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- verbesserte, bevorzugt weitgehende, insbesondere wenigstens im ■ 
wesentlichen maximale Unabhangigkeit zwischen den Zugriffen 
durch den Datenpfad der CPU und der VPU vorliegt, urn so Lauf- 
' " zeitunterschiede zwischen CPU-Datenpf ad und VPU-Datenpf ad aus- 
.5 zugleichen, unri/oder insbesondere wenn der Lauf zeitunter- 

schied'zu grpB bleibt, per Compiler NOP-Zyklen . eingefugt 
' und/oder per Hardware so iange Wart'eZyklen iiti CPU-Datenpf ad 
gerieriert werden, bis notwendige Daten fur eine Weiterverar- 
beitung von der VPU vorliegen und insb.esondere in das Register 
10' ' .geschrieben wurden oder.dies- erwartet werden kann/ was .insbe- 

sondere durch Setzen eines zusatzlichen. Bits im Register ange- ■ 
zeigt werden kanri.- 

13.- Verfahren nach einem der vorhergehenden Anspruche, dadurch' ge- 
15 kerinzeichnet, dafl fur den Betrieb des rekonf igurierbaren Fel- 

des. von Datenverarbei^tungseinheiten LOAD und/oder STORE Kon- 
figuratiorien vorgeseheh werden,- wobei .insbesondere eine LOAD-* 

■ Konfiguration derart' ausgestaltet ist, dafi Daten aus z. B.' ei- 
nem externen Speicher in einen internen Speicher geladen wer- . 

20 den, wozu insbesondere Adressgeneratoren und/oder Zugriffs- 

. steuerungen konf igurier.t werden, urn 'Oaten von prozessprexter-^ 
nen Speichern und/oder Peripherie zu lesen und in die internen 
Speicher, insbesondere RAM ,-PAEs zu . schreiberi und zwar insbe- 
sondere derart wie beim Betrieb als mehrdlriiensionale ^ Datenre- 
25 gister (z. B. Vektorregister ) und/oder .wobei weiter insbeson- 

dere Daten aus den internen • Speichern (RAM-PAEs) an den exter- 
nen Speicher bzw. " die Peripherie , ges'chrieben werden/ wozu , ins- 
besondere Adressgeneratoren uild/oder Zugrif fssteuerungen kon- 
figuriert werden, ..wobei insbesondere zumindest jeweils teil- 
30. ' weise Adressgenerierfuriktionen derart . optimiert werderi, . dass 

■bei einer nicht linear en Zugrif fsfolge des Algorithmus auf ex- 
terne Daten die entsprechendeh Adresspattern von den Konfigu— 
\ rationen • generiert werden, . , 

*, ■ - * • * 

Verfahren nach, einem der vorhergehenden Anspruche, worin zur 
• Betriebsvorbereitung ein Debugging erfolgt, insbesondere unter 
Verwendung von LOAD und/oder STORE Konf igurationen, insbeson- 
dere durch Ausfuhrung eines LOAD-PROZESS-STORE-Zyklus, wobei 
fur das Debugging relevante Dateri und/oder Zustande nach Been- 
digung der Verarbeiturig einer Konfiguration ,in den RAM-PAEs 
' iiegen und zum Debugging hierauf zugegriffen wird, wobei . ins- 
besondere laufzeitbegrenzte bz^- watchdoguberwachte Konfigura- 
... " tionen oder * Konf igurationsatome debuggt werden. 1 . 

45 15. Verfahren nach dem vorhergehenden Anspruch, dadurch gekenn- 

■ zeichriet,- dafi' das Verhalten der Anordung zur Betriebsvorbe- 
reitung simuliert wird. . - f 

16. Verfahren nach einem der vorhergehenden Anspruche, dadurch ge- 
50' kennzeichnet, daft zumindest zeitweise eine PUSH Konfiguration 

* ■ auf das Feld konf iguriert wird, insbesondere. bei einem 

Taskwechsel und/oder zwischen den Konf igurationen des LOAD- 
PROCESS-STORE Zyklus eingefugt wird und die internen Speiche- 

. 30 
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20 



25 




rinhalte- der Feldintprenn Speicher, insbesondere von RAM-PAEs 
• nacti extern sichert,' * insbesondere auf einen. Stack.,, wobei be-. 
■ vorzugt : nach der -Push-Konf igurationsabarb'eitung. auf. einen -an- 
deren Task gewechselt' wird, , d.h. der, aktuelle LOAD-PROCESS- 
'S . ■ STORE-Zyklus kann abgebrochen ' werden und ein LOAQ-P.RdCES.S- 

' STORE- Zy.klus des' n^chsten 1 ' Ta.sks kann a'usgefuhrt werden, ; • 

und/oder dafi zumindest zeitweise 'eine POP-Konf igur,ation auf 
das* Feld konfiguriert wird, urn Daten aus den externen • Spei- 
chern wie. einem Stack, zu laden, "i ■ 

10 . 17 m . verfahrens ( nacb einem der vorhergehenden Anspruche, dadurch 
gekennzeichnet, daft ein Scheduler zur Verwendung von .Miilti- . 
threading .und/oder Hyperthrejading Technologien vorgesehen ■' 
wird/ der. Applikationen und/oder Applikationsteile (Threads) • 

15 feingranular auf Ressourcen inrierhalb des Prozessors verteilt,. 

18. Verfahren insbesondere nach einem der vorhergehenden Anspruche 
zum Betrieb und/oder der Vorbereitung des BStriebs eines her- 
kommlichen, insbesondere sequenziellen Prozessors und eines 
rekonfigurierbaren Feldes von' Datenverarbeitungseinheiten, , ; 

1 . insbesondere eines lauf zeitrekonf igurierbaren Feldes vonDa- 
tenverarbeitungseinheiten, dadurch gekennzeiehnet, dafl eine 
iiber die' zu ladende Konf iguration als . nicht ' unterbrechbar be- 
handelt und/oder betraphtet wird. . . 

19. Verfahren insbesondere nach einem der vorhergehenden Anspruche 
zum Betrieb und/oder der Vorbereitung des 'Betrietis' eines her- 
koramlichen, insbespndere sequenziellen Prozessors und^ eines. 
rekonfigurierbaren Feldes von Datenverarbeitungseinheiten, 

30 insbesondere eines lauf zeitrekonf igurierbaren Feldes von Da- ^ 

tenverarbeitungseinhei.ten; worin der herkommliche Prozessor in 
einem Satz aus einer Vielzahl von vordef inierten und nichtvor- 
definierten Befehle definierte Befehle abarbeitet und Daten- 
v^rarbeitungseinheitenfeldrekonfigurationen auslost, dadurch 
gekennzeiehnet, dafi jede Konf iguration Oder, gleichbedeutend 
insbesondere bei Vdr-Laden einer Vielzahl von Konf ig]ur at ions- 
gruppen. fur Zwecke der ' alternativen und/oder kurz nacheinander 
ablaufenden Ausfuhrung, jede Konf igurationsgruppe, ^ auf eine 
'bestimmte Maximalzahl an Lauf zei^ttakten begrenzt wird. 

201 Verfahren nach dem vorhergehenden Anspruch, dadurch- gekenn- 
zeiehnet, ,dafi die Maximalzahl insbesondere durch Neu- 
Antriggern- bzw. Rucksetzen eines .Watchdog- Mitlauf zahlers , ■ 
' konf igurationsseitig erhohbar ist. 

21. Verfahren nach dem vorhergehenden Anspruch, dadurch gekenn- 

zeichnet, daft eine per se mSgliche konf igurationsseitige Maxi- 
; malzahlerhohung unterbindbar ist , insbesondere bei und/oder' 
. durch T.askswitching und/oder ein MaximalzahlerhShungshauf ig- ^ 
50,. ..keitsmitlaufzahler 'zur Begrenzung der Anzahl an Malen, die ei- 
ne Maximalzahlerhohung durch eine- einzelne .Konf iguration er- 
folgt, vorgesehen ist. • . 
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22 . Verf ahren nach einem. der vorhergeheilden Ansp'ruche, dadurch ge- 
kennzeichnet, daft auf das insbesondere durch einen Mitlaiifzah- 
ler erfaflte tatsachliche .oder vermutliche Auftreten einer. 

' nicht terminierenden Konf iguration hin ein Prozessorexceptibn- 

5 signal generiert wird. 

23. 'Verf ahren insbesondere nach einem der vorhergehenden Ansprtiche 

zum Betrieb und/oder der Vorbereitung des Betriebs. eines .her- ' 
k3mirilichen, insbesondere sequenziellen Prozessors und eines. 

10 ' rekonf igurierbaren . Feldes von D^tenverarbeitungseinheiten, , 
insbesondere eines lauf zeitrekonf igurierbaren Feldes von Da- 
• tenverarbeitungseinheiten, dadurch gekennzeichnet, daft eine 
Lauf zeitabschatzung fur die Konf igurationsausfuhrung vorgenom— 
men wird, urn einen der Lauf zeit adaquaten Betrieb des Prozes- 

15. • sors zu ermbglichen. 

24. Verf ahren zum Betrieb und/oder der Vorbereitung des Betriebs 
eines herkommlichen, insbesondere sequentiellen Prozessors und 
eines rekonf igurierbaren Feldes von . Datenverarbeitungseinhei- 

20 ten, insbesondere eines. lauf zeitrekonf igurierbaren Feldes von 

'Datenverarbeitungseinjieiten,- 

worin Daten zwischen Prozessor und Datenverarbeitungseinheit- 
.feld ausgetauscht- werden, dadurch gekennzeichnet, dafl Daten 
vom Datenverarbeitungseinheitf eld in'eineih Prozessorcache ab- 
25' ' gelegt und/oder von dort erhalten werden. 

25. Verf ahren nach dem vorhergehenden Anspruch, dadurch gekenn- 
zeichnet, dafl eine Cachebereichsmarkierung zur Feststellung 
als "dirty" gelt'ender Cachebereiche vorgesehen wird. 

30 

26.. Verf ahren nach dem vorhergehenden Anspruch, dadurch. gekenn- 
zeichnet, d'afi ein insbesondere cachecontrollerbewirktes hi&- 
denwriteback (verborgenes Ruckschreiben) insbesondere zum 
Cachesauberhalten vorgesehen wird.' 

•27.- Vorrichtung insbesondere zur Ausfuhrung eines Verfahrens nach 
' einem der vorhergehenden Ansprtiche, dadurch gekennzeichnet, 
clafi das oder ein zumindest partiell mit rekonf igurierbaren 
' Einheiten gebildetes Prozessorf eld FPGA-artige Sehaltkreisbe- 
40 reiche aufweist, insbesondere als separate rekonf igurierbare 

Einheiten und/oder als ein oder Teil eines Datenpfades zwi- 
schen grobgranular rekonf igurierbaren Einheiten und/oder 1/0- 
Anschlufibereichen, insbesondere .ALU-Einheiten und/oder al-s 
Teil einer zumindest eine ALU-Einheit enthaltenden Prozessor- 
45 ' feldzelle.- ' 

28. Vorrichtung nach dem vorhergehenden Anspruch, dadurch gekenn- 
zeichnet, daJi im Datenpfad zwischen grobgranular rekonf igu- 
rierbaren Einheiten und/oder I/O-Anschluflbereichen vorhandene 
50 FPGA-artige Schaltkreisbereiche vorgesehen sind, die bei 

Nichtverwendung und/oder im Resetzustand einen datenunveran- 
dernden Durchlauf erlauben. 
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29. Vorrichtung nach einem der vorhergehenden Vorrichtungsanspru- 
che, dadurch gekennzeichnet,, dafi zur Verwendung von' Multi- 
threading und/oder Hyperthreading Technologien ein hardwareim- 
plementierter Scheduler vorgesehen ist, der. dazu ausgebildet. 
ist, feingranular Applikatiorien und/oder Applikationsteile . 
(Thread) auf Ressourcen innerhalb des Prozessors zu" verteilen.- 
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Zusammenfassung 

» • 

Es wird beschrieben, wie eine Kopplung eines herkammlichen, insbe- 
sondere sequenziellen Prozessbrs und. eines rekonf igurierbaren Fel- 

des von Datenverarbeitungseinheiten, insbesondere eines laufzeit- 

* v j 

rekonfigurierbaren Feldes von .Datenverarbeitungseinheiten ausge- 
staltbar ist. 
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